Herhangi Bir Metnin Hangi Dilden Olduğunu Hızlıca Anlama

0
FZ
Yapay zekâ dersim için Prolog ile boğuşurken ve comp.lang.prolog haberleşme/tartışma grubunu mesaja boğarken oraya katkıda bulunan bir hocanın, Gertrand Van Noord'un enteresan bir çalışması dikkatimi çekti.

Perl ile yazılmış bir tür dil kategorizasyon programı. Yani bir GİRDİ'ye bakıp, "hmm bu Türkçe" diyor, başka bir girdiye bakıp "hmm, bu da Portekizce" diyor ve bunu kısa sürede, yüksek başarım oranı ile, 69 farklı dil için yapıyor. Açık kodlu, özgür yazılım kategorisinde alan TextCat'in bir de web demosu var.

Van Noord, TextCat'in ticari ve ticari olmayan rakiplerini de sıralamış. Kendi yazılımına dil sayısı olarak en çok yaklaşan yazılım XEROX Language Identifier ticari bir yazılım ve 40 civarı dil ayırt edebiliyor.

Hep birlikte tekrarlıyoruz: Özgür Yazılımı Seviyoruz! :)

Görüşler

0
abakana
Türkçe' ye özgü ışğ karakterlerinin bulunmadğı metinleri unknown olarak gösteriyor. Bu arada ışğ olmaması kesinlikle kullanılmaması anlamında algılanmalıdır. ı -> i ğ -> g gibi bir dönüşüm yapılmadı.
0
roktas
Hmm... Bu denemeyi hangi ortamda yaptınız? (Tarayıcı + OS) Burada böyle bir sorun yok (Firefox + Debian 3.1 Sarge). Ayrıca ı (idotless) gibi Türkçeye çok özgü karakterleri içeren girişler programa kopya vermek gibi olmuyor mu? :-) Xerox'taki ile kıyaslandığında başarım oranını daha düşük bulsam da programı beğendim. Stallman'in sözlerini unutmamak lazım, özgürlük teknolojiden evladır. ;-)
0
abakana
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.5) Gecko/20041107 Firefox/1.0

Slackware GNU/Linux 9.1
0
redline99
bende turkce karakterleri kullanmadan bir iki cumle denedim, bazilarini bildi bazilarini bilemedi. Ama bencede basarili bir program.
0
FZ
Türk diline özgü düşük seviyeli doğal dil işleme (morfoloji, deASCIIfying, dil tanıma (Türkçe mi değil mi), imla kontrolü,vs.) konuları ile uğraşan arkadaşlara hararetle tavsiye olunur:

http://tspell.dev.java.net/

Daha önce FM'de haberini geçmiştik:

http://www.fazlamesai.net/modules.php?name=News&file=article&sid=2337

Az zamanda, epey kısıtlı kaynakla çok iş çıkarmış sağlam bir ekibin sırtlandığı bu açık kodlu proje herkesin her türlü desteğine açık, bilginize. Türkçe için yapılan çalışmalar neden bu kadar az ve kısır diye şikayet edeceğinize siz de karınca kararınca (ya da belki aslan payını hedefleyebilecek iddialı bir programcı olarak, belli mi olur ;-) katkıda bulunabilirsiniz.
0
The_Patch_Mode
Az önce web sürümünü denedik arkadaşımla. Fakat programı başarılı bulmadık. Mesela program Türkçe'ye özgü karakterleri içeren kelimeleri hemen tanıyabiliyor. ı, ğ ,ş gibi. Ama bu harfleri içermeyen başka Türkçe kelimeleri yazdığımızda tanıyamıyor. Daha doğrusu yazdığım hiçbir Tütkçe kelimeyi tanımadı diyebilirim.
0
FZ
Kelimeler?

Burada sanırım bir yanlış anlama söz konusu. Program istatistiksel yöntemle çalışıyor gördüğüm kadarı ile, dolayısı ile dillere dair açık bir semantik bilgi içermiyor ve dolayısı ile verdiğiniz metin ne kadar uzun olursa o kadar iyi tahmin yapabiliyor. Mesela aşağıdaki paragrafı "Turkish" olarak kategorize ediyor:

--------------------------------------------------------------------------
Merhaba, bu basit bir deneme. Anadilime ait herhangi bir harf kullanmazsam acaba anlayabilecek misin benim anadilim nedir, hatta noktalama da kullanmazsam olur herhalde. Madem o kadar yetenekliyim diyorsun de bana marifetini.

Pekala, tek bir paragrafla olmuyor demek ki. Bir de bunu dene.

Gene mi bulmak kolay olmayacak emin misin. Belki bu sana daha kolay gelebilir, bir ihtimal, hadi kolay gelsin.
--------------------------------------------------------------------

Yukarıdaki metne aşağıdaki cümleleri ekleyip denediğimde yine aynı sonucu alıyorum:

--------------------------------------------------------
Peki ya bir iki laf daha eklersem o zaman da problem olmadan bana kabul edilebilir bilgi verebilecek misin
------------------------------------------------------

Tabii Türkçeye özgü harf kullanmadan yazacağım diye göbeğim çatladı o ayrı :) Ama programın performansını göstermesi açısından fena değil gibi görünüyor.

Not: Noktalama kullanmayacağım derken, doğru kullanmayacağım manasında, yani mesela soru işareti gereken yere yazmamak gibi ancak tabii bunun programı etkileyeceğini düşünmüyorum çünkü noktalama dağılımının konu ile alakası yok.
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Contiki İşletim Sistemi ve Masaüstü Ortamı

FZ

1 Mhz saat frekansında çalışan 8 bitlik 6510 mikroişlemcisi ve 64 KB ana hafızası olan bir Commodore-64 üzerinde bir Multi-tasking kernel, temaları ile oynayabileceğim bir pencere yöneticisi, Internet'e RS-232/SLIP ya da Ethernet üzerinden bağlanmamı sağlayan bir TCP/IP stack'i, buna doğal ek olarak hazır bağlanmışken web sayfalarını görüntüleyebileceğim bir Internet tarayıcısı, bir web sunucu ve bir de uzaktan sistemlere erişim için bir Telnet istemcisi istesem herhalde bana gülersiniz ve "saçmalama olur mu öyle şey!" dersiniz değil mi? Hmm, ama belki de demezsiniz ;-)

Lego MindStorms Uzaktan Kumanda Projesi

FZ

Lego MindStorms setlerinin en büyük dezavantajlarından biri, RCX'de bulunan hafızanın (32 KB) ileri düzey projeler geliştirmek için yetersiz olmasıdır. Bu sorunu önlemenin yolu ise RCX'de çalışması planlanan algoritmaların bilgisayarda çalıştırılıp, algoritmanın çıktısı olan motor, sensör hareketlerinin RCX`e gönderilmesidir.

Lego MindStorms Setlerinin bu amaç için kızıl ötesi donanımı ve LeJOS'un Lego Kulesi ile RCX arasında haberleşmeyi sağlayan APIleri mevcuttur fakat haberleşme için kızıl ötesinin kullanılıyor olması kısıtlayıcıdır çünkü kızıl ötesi haberleşmesi 1-2 metre mesafe ile sınırlı kalmakla beraber kızıl ötesi alıcı/verici ledlerinin birbirlerini görme zorunluluğu olmaktadır.

Open source muhasebe programı, Turquaz

huseyin

Turquaz, açık kaynak kodlu, modüler bir muhasebe yazılımı.
Piyasada bulunan programların network sorunları, kısıtlayıcı lisansları, kullanıcı istekleri doğrultusunda yeterli gelişim göstermemesi ve linux işletim sistemi üzerinde çalışmaması sebebiyle hazırlanmaktadır. Gelişimi turquaz ekibi tarafından sourceforge.net sitesinde yapılmakta. Faha fazla bilgi için web sitesini ziyaret edebilirsiniz. Programlama veya muhasebe konusunda deneyimli kişilerin testi ve önerileri ilerleme açısından çok önemli. Sizinde katkılarınızı bekliyoruz.

25 Kat Ucuz GSM

anonim

Türkiye’de akıllı telefonlar ve mobil teknolojiler üzerine araştırmalar yapan Mobinex şirketi, cep telefonuyla konuşma ücretlerini 25 kat daha uzuca mal eden bir yazılım geliştirdi.

Chatin adı verilen yazılım sayesinde Symbian (Series 60) uyumlu akıllı cep telefonları, adeta bir telsize dönüşüyor. Chatin sayesinde cep telefonlarından e–mail atıp fotoğraf ve ses paketleri gönderen kullanıcılar çok düşük bir ücret ödüyor. Program da şimdilik telefonlara ücretsiz yüklendiğinden Turkcell, Aria ve Aycell’in şu anki tarifesiyle 50 bin mesaj veya 10 bin e-mail ya da 20 resim, sadece 1 milyon 200 bin liraya aynı programı kullanan başka bir aboneye gönderilebiliyor.

HTML Form Onaylama (JavaScript ile programlamaya son!)

FZ

(GÜNCELLEME: Mozilla ile uyumlu hale getirildi) Herhangi bir web sayfası içinde herhangi bir html formu yerleştirdiğimizde bunun hemen ardından genellikle form gönderilmeden önce kullanıcının bu formu düzgün şekilde doldurup doldurmadığını kontrol etmek isteriz ("form validation"). Böylece sunucu tarafındaki kontrollere geçmeden önce doğrudan kullanıcının bilgisayarında yani istemcide hızlıca ve basit bir kontrol gerçekleştirebilir, hatalı ya da eksik bilgi girişinin bir nebze önünü kesmiş oluruz.