Makalenin devamı: http://zembereknlp.blogspot.com/2007/02/zemberek-nasl-alr-1szlk-ve-kk-aac.html
Ben etmişimdir diye düşündüm bir an;-) Türkçe için öyle bir şey hazırlandığı gün gözümün açık gitmeyeceği gündür...
Fakat üzerinde çalışmak istediğim metinler Türkçe olduğu için pek bir yarar sağlayamadım doğal olarak. Halbuki sadece bir metinde geçen özgün kelime adedini öğrenmek gibi "basit" bir niyetim vardı. Bu iş göründüğü gibi kolay değil maalesef.
O konuda bir gelişme var mı? İşinizi halledebildiniz mi? Ya da başka talepleriniz varsa onları da belirtin belki yardımcı olabilecek arkadaşlar çıkabilir.
Bu gibi şeyleri ben biraz da pazar ekonomisi ile ilgili buluyorum yani bugün İngilizce için bir doğal dil işleme programı geliştirseniz ve çok özel, güçlü hızlı bir şey olsa bunun müşterisi Google olur, IBM olur, Oracle olur, Microsoft olur çünkü İngilizce. Aynı şeyi Türkçe için yapmaya kalksanız, hani 70 milyonluk ülkeyiz diyoruz da pazarımız ne kadar ki, kaç paralık ekonomimiz var bu tür dile bağımlı teknolojiler için? Kim ne kadar fonlar bu tür araştırmaları ve açık kodlu çözümleri?
Metin içinde özgün sözcük derken neyi kast ediyorsunuz? Yani sadece farklı sözcükler mi? Yoksa farklı kökler mi? Yoksa köklere bakıp Türkçe olanları mı kast ediyorsunuz özgün sözcük derken?
Zaten kök, ek meselesini bir kenara bırakırsak "tokenizer" denen bir yazılım için Türk ve Türkçe iki farklı "token" değil midir? Ek ve kök açısından da biri diğerinin kökü değil midir? Yani bu bilgileri veren bir sistem (misal Zemberek) işinizi görür mü?
Buna ihtiyaç duyan bilişim devi firmalarımız yok, doğru. Ama ülkenin konu ile ilgili bilimsel kadroları genelağ denilen ekonomik, sosyal ve kültürel olgunun geleceğinin bu tür çalışmalarda olduğunu görmesi gerekir.
Gerekir ile "olur" arasında ince ama önemli bir çizgi var öyle değil mi? Ben, ekonomik gelişme söz konusu olmadan bu tür şeylerin ciddi sıçrama yapabileceğini sanmıyorum.
Neden hala ciddi bir desteği yok Zemberek Projesinin anlamak zor. Tartışma çıkartmak istemem ama "en az" Pardus kadar önem verilmesi gereken bir uygulama.
Türkçe'de yabancı sözcükleri benimseme çılgınlığından dolayı kökleri takip edilemeyen pek çok sözcük var (tek neden bu değil tabi). Bunların tespitinde ya da sözcüğün Türkçe olup olmadığını anlamak için işin tersinden gidilebilir. Türkçe ekler, bazı ses düşmesi durumları dışında pek değişmez. Bu yüzden eklerin çözümlenmesi sözcüğün Türkçe olarak tanımlanmasını sağlayacaktır.
Umarım bu çalışmalar daha fazla destek bulur.