Herhangi Bir Metnin Hangi Dilden Olduğunu Hızlıca Anlama

0
FZ
Yapay zekâ dersim için Prolog ile boğuşurken ve comp.lang.prolog haberleşme/tartışma grubunu mesaja boğarken oraya katkıda bulunan bir hocanın, Gertrand Van Noord'un enteresan bir çalışması dikkatimi çekti.

Perl ile yazılmış bir tür dil kategorizasyon programı. Yani bir GİRDİ'ye bakıp, "hmm bu Türkçe" diyor, başka bir girdiye bakıp "hmm, bu da Portekizce" diyor ve bunu kısa sürede, yüksek başarım oranı ile, 69 farklı dil için yapıyor. Açık kodlu, özgür yazılım kategorisinde alan TextCat'in bir de web demosu var.

Van Noord, TextCat'in ticari ve ticari olmayan rakiplerini de sıralamış. Kendi yazılımına dil sayısı olarak en çok yaklaşan yazılım XEROX Language Identifier ticari bir yazılım ve 40 civarı dil ayırt edebiliyor.

Hep birlikte tekrarlıyoruz: Özgür Yazılımı Seviyoruz! :)

Görüşler

0
abakana
Türkçe' ye özgü ışğ karakterlerinin bulunmadğı metinleri unknown olarak gösteriyor. Bu arada ışğ olmaması kesinlikle kullanılmaması anlamında algılanmalıdır. ı -> i ğ -> g gibi bir dönüşüm yapılmadı.
0
roktas
Hmm... Bu denemeyi hangi ortamda yaptınız? (Tarayıcı + OS) Burada böyle bir sorun yok (Firefox + Debian 3.1 Sarge). Ayrıca ı (idotless) gibi Türkçeye çok özgü karakterleri içeren girişler programa kopya vermek gibi olmuyor mu? :-) Xerox'taki ile kıyaslandığında başarım oranını daha düşük bulsam da programı beğendim. Stallman'in sözlerini unutmamak lazım, özgürlük teknolojiden evladır. ;-)
0
abakana
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.5) Gecko/20041107 Firefox/1.0

Slackware GNU/Linux 9.1
0
redline99
bende turkce karakterleri kullanmadan bir iki cumle denedim, bazilarini bildi bazilarini bilemedi. Ama bencede basarili bir program.
0
FZ
Türk diline özgü düşük seviyeli doğal dil işleme (morfoloji, deASCIIfying, dil tanıma (Türkçe mi değil mi), imla kontrolü,vs.) konuları ile uğraşan arkadaşlara hararetle tavsiye olunur:

http://tspell.dev.java.net/

Daha önce FM'de haberini geçmiştik:

http://www.fazlamesai.net/modules.php?name=News&file=article&sid=2337

Az zamanda, epey kısıtlı kaynakla çok iş çıkarmış sağlam bir ekibin sırtlandığı bu açık kodlu proje herkesin her türlü desteğine açık, bilginize. Türkçe için yapılan çalışmalar neden bu kadar az ve kısır diye şikayet edeceğinize siz de karınca kararınca (ya da belki aslan payını hedefleyebilecek iddialı bir programcı olarak, belli mi olur ;-) katkıda bulunabilirsiniz.
0
The_Patch_Mode
Az önce web sürümünü denedik arkadaşımla. Fakat programı başarılı bulmadık. Mesela program Türkçe'ye özgü karakterleri içeren kelimeleri hemen tanıyabiliyor. ı, ğ ,ş gibi. Ama bu harfleri içermeyen başka Türkçe kelimeleri yazdığımızda tanıyamıyor. Daha doğrusu yazdığım hiçbir Tütkçe kelimeyi tanımadı diyebilirim.
0
FZ
Kelimeler?

Burada sanırım bir yanlış anlama söz konusu. Program istatistiksel yöntemle çalışıyor gördüğüm kadarı ile, dolayısı ile dillere dair açık bir semantik bilgi içermiyor ve dolayısı ile verdiğiniz metin ne kadar uzun olursa o kadar iyi tahmin yapabiliyor. Mesela aşağıdaki paragrafı "Turkish" olarak kategorize ediyor:

--------------------------------------------------------------------------
Merhaba, bu basit bir deneme. Anadilime ait herhangi bir harf kullanmazsam acaba anlayabilecek misin benim anadilim nedir, hatta noktalama da kullanmazsam olur herhalde. Madem o kadar yetenekliyim diyorsun de bana marifetini.

Pekala, tek bir paragrafla olmuyor demek ki. Bir de bunu dene.

Gene mi bulmak kolay olmayacak emin misin. Belki bu sana daha kolay gelebilir, bir ihtimal, hadi kolay gelsin.
--------------------------------------------------------------------

Yukarıdaki metne aşağıdaki cümleleri ekleyip denediğimde yine aynı sonucu alıyorum:

--------------------------------------------------------
Peki ya bir iki laf daha eklersem o zaman da problem olmadan bana kabul edilebilir bilgi verebilecek misin
------------------------------------------------------

Tabii Türkçeye özgü harf kullanmadan yazacağım diye göbeğim çatladı o ayrı :) Ama programın performansını göstermesi açısından fena değil gibi görünüyor.

Not: Noktalama kullanmayacağım derken, doğru kullanmayacağım manasında, yani mesela soru işareti gereken yere yazmamak gibi ancak tabii bunun programı etkileyeceğini düşünmüyorum çünkü noktalama dağılımının konu ile alakası yok.
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Autodesk, Alias 'ı Satın Aldı

simor

Buraya gönderdiğim bu ilk haberin, benim için çok üzücü bir haber olduğunu belirtmeliyim. Senelerdir şahsen işimin olmadığı, yazılımlarından fellik fellik kaçtığım Autodesk, Aliassatın aldı.

Augmented Reality: Gerçeklik Anlayışımızda Yeni Bir Boyut

FZ

Önce VR vardı yani Virtual Reality, yani Sanal Gerçeklik, kafaya geçirdiğiniz kask ile tamamen bilgisayar tarafından oluşturulmuş dünya gözlerinizin önüne geliyordu. Şimdi ise yeni bir kavramla yüz yüzeyiz, Augmented Reality. Nasıl tercüme edilir doğru düzgün bilmiyorum ama bu kavramla anlatılmak istenen gerçek dünya görüntüleri üzerine bilgisayar grafiklerini bindirmek ve böylece mevcut algılayışınızı çok öteye götürmek.

Tyler Mitchell´in blogunda anlatılanlara bakılacak olursa Avustralyalı araştırmacılar bir hayli aşama kaydetmiş durumdalar. Fiziksel ortamınızda 3B modelleri nasıl yaratıp onlarla oynayabileceğinizi videolarla gösteren Tinmith Technologies sitesine ve benzer bir teknolojinin kullanıldığı Augmented Reality Quake sitesine göz atmakta fayda var.

Düşünsenize bu Avustralyalı amcaların hazırladığı sırt çantasını ve kaskı giyiyorsunuz, sonra terk edilmiş ve tekinsiz bir binada ilerlemeye başlıyorsunuz, her an koridorun köşesinden korkunç bir canavar çıkabilir ya da belki arkadaşınız sizi vurmaya çalışıyor olabilir. Hangisi gerçek, hangisi hayal? Tabii insanlar bunu coğrafi bilgi sistemleri gibi daha faydalı işler için de kullanmayı düşünüyorlar ;-)

Türkçe bir sunucu: ISOS

korsan

ISOS küçük kurumlar için tasarlanmış bir e-posta ve web sunucusu. Kolay kullanımlı, Linux ve Windows uyumlu. Türkçe ve İngilizce destekleyen yönetim konsolu var...ve Kamu Lisansı ile dağıtılıyor. Bir kablonet bağlantınız ve alan adınız varsa 5 dakikada internet servislerinizi çalıştırmaya başlayabilirsiniz.

Python ile yazılan bu paketin içinde SMTP, POP3 ve HTTP/CGI sunucuları ile beraber, sistemi, kullanıcıları ve e-posta gruplarını yönetmeyi sağlayan bir konsol uygulaması var.

Görmek, denemek isteyenler için: isos.acikkanal.net. Bulduğunuz hataları ya da önerilerinizi bildirirseniz çok sevinirim.

Bağış Toplamanın Yeni Yolu: Fundable

arikan

Fundable bir grup insanın paralarını bir araya koyarak bir projeyi desteklemesini veya daha hesaplı ortak birşey satın almasini sağlayan bir web hizmeti. Örneğin açık kaynaklı bir yazılım geliştirmek için, veya bir sanat etkinliği duzenlemek için burada para toplanabiliyor. Belirlenen zaman aralığında belirlenen miktarda para toplanabilirse kampanya başarıya ulaşmış sayılıyor, eğer yeteri kadar para toplanamazsa toplanan paralar sahiplerine geri veriliyor. En son açık kaynaklı Internet text editoru FCKEditor için başlatılan kampanyada 6 kisinin katkısıyla $600 toplandı. Henüz yeni olan sistem online ilişkilerin mikro boyutta ekonomiye bulaşmasına güzel bir örnek.

All Plan ve Cinema 4d Türkiye tanıtımı başladı

redogre

All plan den hatırlayacağınız Alman Nemetschek firması Cinema 4D adlı 3 boyutlu çizim programını da bünyesine kattı. Aluplan firmasının Türkiye'ye getirdiği Allplan ve Cinema 4D programlarının tanıtımını ve eğitimini FGA Mimarlık veriyor. Firmanın sitesinde hem programlarla ilgili bilgi hem, tutorial lar hem de patch ler var.