Herhangi Bir Metnin Hangi Dilden Olduğunu Hızlıca Anlama

0
FZ
Yapay zekâ dersim için Prolog ile boğuşurken ve comp.lang.prolog haberleşme/tartışma grubunu mesaja boğarken oraya katkıda bulunan bir hocanın, Gertrand Van Noord'un enteresan bir çalışması dikkatimi çekti.

Perl ile yazılmış bir tür dil kategorizasyon programı. Yani bir GİRDİ'ye bakıp, "hmm bu Türkçe" diyor, başka bir girdiye bakıp "hmm, bu da Portekizce" diyor ve bunu kısa sürede, yüksek başarım oranı ile, 69 farklı dil için yapıyor. Açık kodlu, özgür yazılım kategorisinde alan TextCat'in bir de web demosu var.

Van Noord, TextCat'in ticari ve ticari olmayan rakiplerini de sıralamış. Kendi yazılımına dil sayısı olarak en çok yaklaşan yazılım XEROX Language Identifier ticari bir yazılım ve 40 civarı dil ayırt edebiliyor.

Hep birlikte tekrarlıyoruz: Özgür Yazılımı Seviyoruz! :)

Görüşler

0
abakana
Türkçe' ye özgü ışğ karakterlerinin bulunmadğı metinleri unknown olarak gösteriyor. Bu arada ışğ olmaması kesinlikle kullanılmaması anlamında algılanmalıdır. ı -> i ğ -> g gibi bir dönüşüm yapılmadı.
0
roktas
Hmm... Bu denemeyi hangi ortamda yaptınız? (Tarayıcı + OS) Burada böyle bir sorun yok (Firefox + Debian 3.1 Sarge). Ayrıca ı (idotless) gibi Türkçeye çok özgü karakterleri içeren girişler programa kopya vermek gibi olmuyor mu? :-) Xerox'taki ile kıyaslandığında başarım oranını daha düşük bulsam da programı beğendim. Stallman'in sözlerini unutmamak lazım, özgürlük teknolojiden evladır. ;-)
0
abakana
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.5) Gecko/20041107 Firefox/1.0

Slackware GNU/Linux 9.1
0
redline99
bende turkce karakterleri kullanmadan bir iki cumle denedim, bazilarini bildi bazilarini bilemedi. Ama bencede basarili bir program.
0
FZ
Türk diline özgü düşük seviyeli doğal dil işleme (morfoloji, deASCIIfying, dil tanıma (Türkçe mi değil mi), imla kontrolü,vs.) konuları ile uğraşan arkadaşlara hararetle tavsiye olunur:

http://tspell.dev.java.net/

Daha önce FM'de haberini geçmiştik:

http://www.fazlamesai.net/modules.php?name=News&file=article&sid=2337

Az zamanda, epey kısıtlı kaynakla çok iş çıkarmış sağlam bir ekibin sırtlandığı bu açık kodlu proje herkesin her türlü desteğine açık, bilginize. Türkçe için yapılan çalışmalar neden bu kadar az ve kısır diye şikayet edeceğinize siz de karınca kararınca (ya da belki aslan payını hedefleyebilecek iddialı bir programcı olarak, belli mi olur ;-) katkıda bulunabilirsiniz.
0
The_Patch_Mode
Az önce web sürümünü denedik arkadaşımla. Fakat programı başarılı bulmadık. Mesela program Türkçe'ye özgü karakterleri içeren kelimeleri hemen tanıyabiliyor. ı, ğ ,ş gibi. Ama bu harfleri içermeyen başka Türkçe kelimeleri yazdığımızda tanıyamıyor. Daha doğrusu yazdığım hiçbir Tütkçe kelimeyi tanımadı diyebilirim.
0
FZ
Kelimeler?

Burada sanırım bir yanlış anlama söz konusu. Program istatistiksel yöntemle çalışıyor gördüğüm kadarı ile, dolayısı ile dillere dair açık bir semantik bilgi içermiyor ve dolayısı ile verdiğiniz metin ne kadar uzun olursa o kadar iyi tahmin yapabiliyor. Mesela aşağıdaki paragrafı "Turkish" olarak kategorize ediyor:

--------------------------------------------------------------------------
Merhaba, bu basit bir deneme. Anadilime ait herhangi bir harf kullanmazsam acaba anlayabilecek misin benim anadilim nedir, hatta noktalama da kullanmazsam olur herhalde. Madem o kadar yetenekliyim diyorsun de bana marifetini.

Pekala, tek bir paragrafla olmuyor demek ki. Bir de bunu dene.

Gene mi bulmak kolay olmayacak emin misin. Belki bu sana daha kolay gelebilir, bir ihtimal, hadi kolay gelsin.
--------------------------------------------------------------------

Yukarıdaki metne aşağıdaki cümleleri ekleyip denediğimde yine aynı sonucu alıyorum:

--------------------------------------------------------
Peki ya bir iki laf daha eklersem o zaman da problem olmadan bana kabul edilebilir bilgi verebilecek misin
------------------------------------------------------

Tabii Türkçeye özgü harf kullanmadan yazacağım diye göbeğim çatladı o ayrı :) Ama programın performansını göstermesi açısından fena değil gibi görünüyor.

Not: Noktalama kullanmayacağım derken, doğru kullanmayacağım manasında, yani mesela soru işareti gereken yere yazmamak gibi ancak tabii bunun programı etkileyeceğini düşünmüyorum çünkü noktalama dağılımının konu ile alakası yok.
Görüş belirtmek için giriş yapın...

İlgili Yazılar

EnderUNIX'in Yeni Projesi: Scanhill MSN Dinleyici

anonim

EnderUNIX'in 16. projesi olan Scanhill yayımlandı. Scanhill yazılımı, şimdilik MSN Messenger protokolunu dinleyip mesajları yakalayıp istenildiğinde standart çıktıya yani ekrana ya da MySQL veritabanına aktarılabilmektedir.

Detaylı bilgi için: http://www.enderunix.org/scanhill

Sizin E-Posta Sunucunuz Hangisi?

FZ

Web sunucu olarak Apache´nin ezici önderliğini Netcraft sağolsun biliyoruz peki ya posta sunucu alanındaki yarış ne alemde? Hangi e-posta sunucu yüzde kaçlık bir kullanıma sahip? Internet´in olmazsa olmazı e-postayı bize taşıyan bu ağır yük işçileri hangi yazılımları tercih ediyor?

Falko Timme de bunu merak etmiş ve Netcraft kadar kaynağa sahip olmamakla birlikte 100.000´in üzerinde e-posta sunucunun hangi yazılımı kullandığını tespit etmiş. Şu anda görülen o ki sendmail ve postfix açık ara önde. Detaylar için e-posta sunucu anketine bakabilirsiniz.

NetBeans 6.0 Türkçe Çeviri Grubu

anonim

NetBeans 6.0'ın kararlı sürümünün duyurulmasına az bir zaman kala çeviri işlemlerine hız verildi. Çeviri yapılacak dillerden biri de Türkçe. İyi bir organizasyon eşliğinde bu editöre Türkçe desteği kazandırmak için Türkçe Çeviri Grubu'na yardım edecek arkadaşlar aranıyor.

Masaüstü Benzetmesini BumpTop ile Aşın

tongucyumruk

Minority Report/Azınlık Raporu filmini izleyipte filmde Tom Cruise'un kullandığı, bilardo eldiveniyle etkileşime geçilen bilgisayarlara özenmeyen yoktur herhalde. Günlük bilgisayar kullanımızda masaüstü kavramı ile hergün karşılaşıyor olsakta aslında bu benzetmenin çok yerinde olduğu söylenemez. "Masaüstü" olarak adlandırdığımız şey genelde dosyaları ve dizinleri ile daha çok bir dosya dolabını andırır. Bu durumdan sıkılan birkaç yazılım geliştiricisi de sonunda bu konuda birşeyler yapmaya karar vermişler. İşte karşınızda: BumpTop

GNU/Linux Üzerinde Cinelerra Profesyonel Video Düzenleme

FZ

Mac ustaları Final Cut Pro, Windows çılgınları Adobe Premiere kullanırken elbet GNU/Linux´a gönül veren videocuların da eli boş durmadı. 1996 yılında ilk kez kamuoyuna sunulan Cinerella halen geliştirilmeye olanca hızı ile devam ediyor. Yazılımın profesyonel özelliklerinin arasında gerçek zamanlı görsel etkiler, FireWire G/Ç, render-farm, HDTV, OggVorbis desteği, vs. bulunuyor.

GNU/Linux´un ortaya çıkışından önceki karanlık çağlarda bu tür bir yazılım ve donanım sistemi için 100.000$ civarı bir parayı gözden çıkarmanız gerekirdi. Oysa projenin anonim programcılarından Jack Crossfire takma isimli yazılımcıya göre artık bu kadar harcama yapmanıza gerek yok.

Bu usta programcı ile yapılan bir röportajın da yer aldığı O´Reilly makalesinde belki de en ilginç kısım yazının başında Jack Crossfire´ın kimlikleri saklamak konusunda söylediği sözler: "Bizimki gibi küçülen bir sektörde, yöneticiler şimdilik yetenekli mühendislerin günlük işleri haricinde harika uygulamalar geliştirmelerine hazır değiller. Bu tür yöneticiler sistemi görmezden gelen mühendislerden kurtulmak konusunda bir an bile tereddüt etmezler, sizi kapının önüne koyarlar. Bu ve benzeri sebeplerden ötürü yazılımınızı kendi isminiz altında insanlara sunamazsınız dolayısı ile `Heroine Virtual Ltd.´ tüm geliştirdiğimiz araçları bünyesinde barındıran kuruluşun ismi oldu. Bu özgür yazılım kurumunun arkasında kaç kişinin ne ölçüde emeği olduğunu ise hayalgücünüze bırakıyoruz."