Zemberek bir kelimenin Türkçe olup olmadığına nasıl karar veriyor? Bu basit sorunun cevabı "verilen bir kelimeyi Türkçe kök ve eklerine ayırabilirseniz Türkçedir, ayıramıyorsanız değildir". Kısacası bir kelimenin Türkçe olup olmamasını anlamak için morfolojik analiz yapabilmelisiniz. Türkçe yazım denetimi yapabilmek için önceleri en sık kullanılan kelimelerin bir dosyaya konulup gelen kelimelerin o dosyadan kontrol edilmesi gibi ilk bakışta mantıklı görünen ama biraz inceleyince pratik olmadığı anlaşılan yöntemler de düşünülmüştü. Bu tür yöntemlerin yetersiz olan %98-99 doğrulukla çalışması için bile milyonlarca kelimeyi içermesi gerekir.
Makalenin devamı: http://zembereknlp.blogspot.com/2007/02/zemberek-nasl-alr-1szlk-ve-kk-aac.html
Makalenin devamı: http://zembereknlp.blogspot.com/2007/02/zemberek-nasl-alr-1szlk-ve-kk-aac.html
Neden hala ciddi bir desteği yok Zemberek Projesinin anlamak zor. Tartışma çıkartmak istemem ama "en az" Pardus kadar önem verilmesi gereken bir uygulama.
Türkçe'de yabancı sözcükleri benimseme çılgınlığından dolayı kökleri takip edilemeyen pek çok sözcük var (tek neden bu değil tabi). Bunların tespitinde ya da sözcüğün Türkçe olup olmadığını anlamak için işin tersinden gidilebilir. Türkçe ekler, bazı ses düşmesi durumları dışında pek değişmez. Bu yüzden eklerin çözümlenmesi sözcüğün Türkçe olarak tanımlanmasını sağlayacaktır.
Umarım bu çalışmalar daha fazla destek bulur.