Herhangi Bir Metnin Hangi Dilden Olduğunu Hızlıca Anlama

0
FZ
Yapay zekâ dersim için Prolog ile boğuşurken ve comp.lang.prolog haberleşme/tartışma grubunu mesaja boğarken oraya katkıda bulunan bir hocanın, Gertrand Van Noord'un enteresan bir çalışması dikkatimi çekti.

Perl ile yazılmış bir tür dil kategorizasyon programı. Yani bir GİRDİ'ye bakıp, "hmm bu Türkçe" diyor, başka bir girdiye bakıp "hmm, bu da Portekizce" diyor ve bunu kısa sürede, yüksek başarım oranı ile, 69 farklı dil için yapıyor. Açık kodlu, özgür yazılım kategorisinde alan TextCat'in bir de web demosu var.

Van Noord, TextCat'in ticari ve ticari olmayan rakiplerini de sıralamış. Kendi yazılımına dil sayısı olarak en çok yaklaşan yazılım XEROX Language Identifier ticari bir yazılım ve 40 civarı dil ayırt edebiliyor.

Hep birlikte tekrarlıyoruz: Özgür Yazılımı Seviyoruz! :)

Görüşler

0
abakana
Türkçe' ye özgü ışğ karakterlerinin bulunmadğı metinleri unknown olarak gösteriyor. Bu arada ışğ olmaması kesinlikle kullanılmaması anlamında algılanmalıdır. ı -> i ğ -> g gibi bir dönüşüm yapılmadı.
0
roktas
Hmm... Bu denemeyi hangi ortamda yaptınız? (Tarayıcı + OS) Burada böyle bir sorun yok (Firefox + Debian 3.1 Sarge). Ayrıca ı (idotless) gibi Türkçeye çok özgü karakterleri içeren girişler programa kopya vermek gibi olmuyor mu? :-) Xerox'taki ile kıyaslandığında başarım oranını daha düşük bulsam da programı beğendim. Stallman'in sözlerini unutmamak lazım, özgürlük teknolojiden evladır. ;-)
0
abakana
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.7.5) Gecko/20041107 Firefox/1.0

Slackware GNU/Linux 9.1
0
redline99
bende turkce karakterleri kullanmadan bir iki cumle denedim, bazilarini bildi bazilarini bilemedi. Ama bencede basarili bir program.
0
FZ
Türk diline özgü düşük seviyeli doğal dil işleme (morfoloji, deASCIIfying, dil tanıma (Türkçe mi değil mi), imla kontrolü,vs.) konuları ile uğraşan arkadaşlara hararetle tavsiye olunur:

http://tspell.dev.java.net/

Daha önce FM'de haberini geçmiştik:

http://www.fazlamesai.net/modules.php?name=News&file=article&sid=2337

Az zamanda, epey kısıtlı kaynakla çok iş çıkarmış sağlam bir ekibin sırtlandığı bu açık kodlu proje herkesin her türlü desteğine açık, bilginize. Türkçe için yapılan çalışmalar neden bu kadar az ve kısır diye şikayet edeceğinize siz de karınca kararınca (ya da belki aslan payını hedefleyebilecek iddialı bir programcı olarak, belli mi olur ;-) katkıda bulunabilirsiniz.
0
The_Patch_Mode
Az önce web sürümünü denedik arkadaşımla. Fakat programı başarılı bulmadık. Mesela program Türkçe'ye özgü karakterleri içeren kelimeleri hemen tanıyabiliyor. ı, ğ ,ş gibi. Ama bu harfleri içermeyen başka Türkçe kelimeleri yazdığımızda tanıyamıyor. Daha doğrusu yazdığım hiçbir Tütkçe kelimeyi tanımadı diyebilirim.
0
FZ
Kelimeler?

Burada sanırım bir yanlış anlama söz konusu. Program istatistiksel yöntemle çalışıyor gördüğüm kadarı ile, dolayısı ile dillere dair açık bir semantik bilgi içermiyor ve dolayısı ile verdiğiniz metin ne kadar uzun olursa o kadar iyi tahmin yapabiliyor. Mesela aşağıdaki paragrafı "Turkish" olarak kategorize ediyor:

--------------------------------------------------------------------------
Merhaba, bu basit bir deneme. Anadilime ait herhangi bir harf kullanmazsam acaba anlayabilecek misin benim anadilim nedir, hatta noktalama da kullanmazsam olur herhalde. Madem o kadar yetenekliyim diyorsun de bana marifetini.

Pekala, tek bir paragrafla olmuyor demek ki. Bir de bunu dene.

Gene mi bulmak kolay olmayacak emin misin. Belki bu sana daha kolay gelebilir, bir ihtimal, hadi kolay gelsin.
--------------------------------------------------------------------

Yukarıdaki metne aşağıdaki cümleleri ekleyip denediğimde yine aynı sonucu alıyorum:

--------------------------------------------------------
Peki ya bir iki laf daha eklersem o zaman da problem olmadan bana kabul edilebilir bilgi verebilecek misin
------------------------------------------------------

Tabii Türkçeye özgü harf kullanmadan yazacağım diye göbeğim çatladı o ayrı :) Ama programın performansını göstermesi açısından fena değil gibi görünüyor.

Not: Noktalama kullanmayacağım derken, doğru kullanmayacağım manasında, yani mesela soru işareti gereken yere yazmamak gibi ancak tabii bunun programı etkileyeceğini düşünmüyorum çünkü noktalama dağılımının konu ile alakası yok.
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Matematik ve programlama gerçek hayatta ne işe yarar:emeksensin.com ve rengarenk

FZ

Emeksensin.com'da en son yaptığımız yeniliğin adı Rengarenk. Rengarenk özelliği ile eserleri renklerine göre arayabiliyorsunuz. Buradan deneyip görebilirisiniz: http://www.emeksensin.com/rengarenk. Renk arama özelliği dünyada az sitede görebildiğimiz bir özellik çünkü bunu yapabilmek için bazı zor problemleri çözmek gerekiyor. İlk problem eserin resmindeki binlerce renkten önemlilerini seçmek. Bunu yapan birçok görüntü işleme algoritması var. Biz OpenCV kütüphanesini kullanarak bir gerçekleme yaptık.

Çevik Yöntemler ve Süreç Bazlı Yöntemler: CMMI / XP

anonim

4 Kasım 2007

Çevik Yöntemler ve Süreç Bazlı Yöntemler: CMMI / XP

Proje Yönetiminde, süreçlere ve dokümanlara dayalı yöntemlerle çevik yöntemler iki ayrı yaklaşımı temsil ediyormuş gibi görünüyor.Bu 2 yaklaşımın detaylandırılması, uygulama örneklerinin verilmesi ve birlikte çalışabilirliği Orhan Kalaycı tarafından bu seminerde aktarılacaktır.

YER : Kadir Has Üniversitesi – Cibali Kampüsü

KATILIM KOŞULLARI : Katılım için kayıt yaptırmak gerekir.

KATILIM ÜCRETİ : 30 YTL (IPYD Üyesi Olmayan), 25 YTL (IPYD/TBD Üyesi)

Wikepage 2006.2 Opus 9 Çıktı

anonim

Bir Türk tarafından hazırlanan wiki yazılımı Wikepage'in yeni sürümü çıktı. Bu sürümde 34KB'lık yazılıma, blog özelliği de eklenerek wiki-blog melez bir yapı elde edilmiş. Blog girdilerinizi wiki sayfası gibi kaydedebiliyorsunuz ve blogunuzu istediğiniz bir wiki sayfasında görebiliyorsunuz. Bu sürümde wikepage, wiki ve blog için basit bir RSS çıktıda sunuyor. Bugfixleri ile gittikçe sağlamlaşan Wikepage'i denemeniz dileğiyle.

Not: Wikepage'i Türkçe kullanmak için ayrıca Türkçe zip dosyasını indirip açmanız gerekiyor.

Masaüstleri Şenleniyor: İlk XGL LiveCD kororaa

halixus

İşletim sistemi cephesinde 3D desktop savaşı iyiden iyiye arttı. Bunun öncülüğünü ilk olarak sun, Looking Glass 3D ile yaptı. Ama hala kararlı sürümünü çıkartmış değil. Ardından Microsoft olaya el attı. Vista'ya benzer bir şey yerleştirdi. Benzer bir şey diyorum nedeni ise Vista'nın BETA sürümünü inceleme fırsatı olan varsa bu özelliği arayıp bulması bulduğunda da hüsrana uğramısı muhtemeldir. Windows tuşu + TAB tuşuna bastığınızda çıkan ekrandan ibaret. Alt + Tab kombinasyonunun biraz daha göze hitap eden şekli denebilir. Sırf yapmış olmak için yapmışlar gibi sanki. GNU/Linux cephesinde ise buna karşılık XGL ismini duymaya başladık. Çıktı çıkacak derken ilk demo LiveCD yayınlandı.

Dağıtımın ismi kororaa. Ekran görüntülerine buradan ulaşabilirsiniz. ISO dosyasına ise buradan indirebilirsiniz.

Ofis Yazılımlarımızı Yükseltelim Lütfen!

conan

Bu ay GNU/Linux dünyasında Ofis yazılımları ayı sanırım! Dün gnomedesktop.org GNOME Office 1.0 sürümünün çıkarıldığının haberini verdi. Bu Ofis sürümünün içindeki AbiWord de böylece 2.0 sürümüne ulaşmış oldu. GNOME Office içinde aynı zamanda GNOME-DB 1.0, Gnumeric 1.2.0 da bulunuyor.