tspell: Türkçe Doğal Dil İşleme Yazılımı

0
FZ
İlk kez Bilgi Üniversitesi´nin bilgisayar bilimleri e-posta listesinde görmüştüm tspell projesinin adresini, sanırım Mart ayı civarıydı, gidip baktığımda ortada henüz bir şey yoktu. Geçen hafta uğradığımda ise Java ile geliştirilmiş ve hiç de küçümsenmeyecek bir sistem ve güzel bir web sayfası karşıladı beni. Bilişsel bilim (cognitive science) ve doğal dil işleme (NLP - Natural Language Processing) konuları ile uğraşan biri olarak heyecanlandığımı inkâr edemem.

İki Türk programcı tarafından başlatılan ve Türk diline ciddi bir teknolojik hizmet olarak gördüğüm böyle bir projenin varlığı, açık kodlu olması ve paylaşıma açık olarak sunulması beni çok sevindirdi.

Bir hayli iddialı olan projenin 0.2 numaralı sürümü hem doğrudan çalışabilir olarak (200 KB) hem de istenirse Java kodları ile birlikte Internet´ten çekilebiliyor. Geliştiricilerin Eclipse yazılım geliştirme platformunu önermeleri ve tspell Java kaynak kodlarının Eclipse üzerinden nasıl çekilip derlenebileceğini anlatan teknik bir makale yazmış olmaları ise benim gibi konuya hızlı bir giriş yapmak isteyen ancak Eclipse ve Java konusunda çok deneyimli olmayan programcılar için çok ciddi bir artı puan. Görebildiğim kadarı ile Eclipse bir hayli güçlü bir platform, CVS işlevselliği de dahil olmak üzere her türlü aracı bünyesinde sunuyor ve entegre olarak ekip çalışmasınız kolaylaştırıyor.
Proje şu anda bünyesindeki sözlük ve algoritmalarla sözlük oluşturma, sözcük denetleme, sözcük çözümleme, Türkçe harf kullanılmadan yazılmış yazıları tam olarak Türkçe yazıya dönüştürme (deASCIIfier) ve tersi işlemleri (ASCIIfier), heceleme işini yapıyor.

Proje kurucu/yöneticileri olan geliştiriciler her türlü katkıya, desteğe ve eleştiriye açıklar. Destek vermeye çalışanları da gayet sıcak karşılıyor ve ellerinden geldiğince yardımcı oluyorlar her türlü konuda. Ben de elimden geldiğince katkıda bulunmaya çalışacağım, şimdilik elimdeki Java kodlarını incelemek ve sistemin algoritmalarını, veriyapılarını anlamakla meşgulüm.

Yazılımcılardan biri Porto Riko´da profesyonel programcı olarak çalışırken diğeri de TÜBİTAK´ta araştırmacı olarak görev alıyor, bir diğer katılımcı da yine bilgisayarla ilgili ve değişik konularda uygulama geliştirmiş biri. Bu projeyi tamamen gönüllü olarak ve ayırdıkları ekstra zamanlarda gerçekleştirilen yazılımcılar genel bir doğal dil işleme çerçevesi oluşturup sistemin genişletilebilir bir şekilde başka sistemlere de hizmet vermesini öngörüyorlar. Bu yüzden de akademik ortamdan olsun, profesyonel yazılım dünyasından olsun, dilbilim ortamlarından olsun her türlü uzmanın katkısını ve desteğini de bekliyorlar.

Görüşler

0
huseyin
http://kilavuz.sourceforge.net [kilavuz.sourceforge.net] sitesinde Hata Toleranslı Sonlu Durum Tanıma (Error Tolerant Finite State Recognition :) ) algoritması kullanarak yazdığımız Linux tabanlı bir imla denetleyicisi var. Emrah OpenOffice'e katılması için uğraşıyor. İlgilenenler bakabilir.
0
roktas
Kilavuz'un binary`sini denedim, gayet güzel çalışıyor. Fakat sizce de önemli bir sorun yok mu ortada? Nerede bunun kaynak kodları? En son Ocak 2003'de güncellenen ve sadece ikili kodu içeren bir paket buluyorum. Şayet böyle bir kaynak var ve ama ben bunu kolayca göremiyorsam o da ayrı bir sorun. Emeğinize saygı gösteriyorum, fakat lütfen özgür yazılım geleneklerine biraz daha özen gösterin. Bu şartlarda OpenOffice`e nasıl nasıl eklenecek bu kod? Kaynak kodun seçilen özgür lisans metniyle birlikte siteye konulmamasını hüsn-ü zan göstererek yoğun mesai içinde ihmal edilmiş bir husus olarak değerlendiriyor ve eleştirimi şimdilik geleneklerin gözetilmemesiyle sınırlıyorum. Sözlerimi her iki projeye verdiğim değerden kaynaklanan bir hassasiyet olarak kabul edin. Umarım kamusal menfaat açısından çok önemli gördüğüm bu başarılı çalışmalar artan katkıcı sayısıyla devam eder ve hızla olgunlaşır. Ama lütfen şu kaynak kodları herkesin ulaşabileceği bir yere koyun. Kimbilir ben de üzerinde ufak ufak hack`lemeye başlarım :-) Sevgilerimle...
0
huseyin
Kilavuz'un kodlari zaten acik. Sitede kodlarin implement edildiği makaleye linkte var. Açık olmayan DFA, yani Türkçe dil makinası. Gerçek sahibi de Üniversite hocamız Sayın Kemal Oflazer http://people.sabanciuniv.edu/oflazer [people.sabanciuniv.edu] veya :) http://sozluk.sourtimes.org/show.asp?t=kemal+oflazer. Sanirim Kilavuz'un ardindan özgür Türkçe sonlu durum makinası yapmak gerekli.
0
sundance
Bir de sanırım bu tür bir haberde, sözkonusu yöntemi geliştiren, bu konuda yıllardır birçok çalışmada bulunmuş olan Kemal Oflazer hocamızdan bahsetmeden geçmek pek doğru olmaz. http://people.sabanciuniv.edu/~oflazer/
0
ahmetaa
Kemal Oflazer suphesiz Turkiyede bu konuda otorite sayilabilecek birisi.
Tspell su an icin Oflazer'in 6-7 yil once geldigi noktaya ancak yakin denilebilecek bir seviyede. Umuyorum hizla gelistirilecek. Proje halen emekleme asamasinda ve pek cok eksigi var.
Su var ki Tspell kelime cozumleme ve ascii'den donusturucu mekanizmalari Oflazer'in sisteminden farkli bir yapiya sahip. Gelistirme sirasinda baska metodlar ornek alinmadi, tamamen sifirdan yazildi. Basit bir cozumleme mantigi oldugunu da belirteyim.
Tspell'in diger calismalardan farki ise tamamen acik kodlu olmasi. Java ile gelistirilmesi de farkli platform problemini kokunden cozuyor. Performansi ise saniyorum oldukca iyi (tam bir kiyaslama yapmak icin baska bir urun gerekiyor). OpenOffice'e icin eklenti gelistirme konusu uzerinde de calismamiz olacak umuyorum.
Bu arada haberi gonderen arkadasa da tesekkurler.
Saygilar.

0
sundance
Kusura bakmayın bu benim hatam, iki projeyi birbirine karıştırmışım. FZ arkadaşımız beni bu konuda uyardı.

Elinize sağlık bu arada.
0
FZ
Hazır konu NLP´den açılmışken, doğal dil işleme filan diyorken, meraklısına yani bu konular ne işe yarıyor, gerçek hayatta ne işimize yarayacak diye düşünenlere. Mesela Yahoo´da dilbilimci ya da doğal dil işleme uzmanı olarak işe başlayabilirsiniz, az önce bana bir e-posta listesinden gelen ilana göre:

University or Organization: Yahoo, Inc.
Department: Search Relevance
Rank of Job: Lexicographer
Specialty Areas: Applied Lingustics, Computational Linguistics, Text/Corpus Linguistics

Description:

Compile and maintain lexical and knowledge resources for language-oriented components of Yahoo search engine. This includes:
- defining, building and using software infrastructure to maintain large (tens of millions) list of phrases with attributes
- identifying and acquiring sources of lists of phrases denoting concepts or objects of certain kind: e.g. company names, medical terms, song titles, etc.
- extracting phrases and attributes from these sources and merging them into a single master representation.

Requirements:
- MS/PhD (in CS or related area)
- experience in data processing (databases, scripting languages, text processing algorithms)
- (at least some) understanding and strong interest in natural language, data models, knowledge representation.
- detail-oriented: The jobs may involve a lot of ad hoc steps in order to achieve good coverage.
0
FZ
- http://groups-beta.google.com/group/comp.ai.nat-lang/browse_thread/thread/8d69b33af8f3bc5f

- http://www.insightful.com/products/infact/911/
0
FZ

https://tspell.dev.java.net/

https://tspell.dev.java.net/surumler/v03/tspell03.html
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Lomboz

anonim

E-iş ve e-ticaret portallarının geliştirilmesini büyük ölçüde kolaylaştıran bir ortam sunan Lomboz, tamamen Türk mühendislerinin gücüyle geliştirildi.

Avrupa Birliği kapsamındaki Object Web isimli konsorsiyumun çatısı altında gerçekleştirilen Lomboz projesi, eteration’ın uluslararası arenadaki bilinirliğine büyük katkıda bulunurken, Türk yazılımını küresel çapta başarıyla temsil etmiş oldu.

Augmented Reality: Gerçeklik Anlayışımızda Yeni Bir Boyut

FZ

Önce VR vardı yani Virtual Reality, yani Sanal Gerçeklik, kafaya geçirdiğiniz kask ile tamamen bilgisayar tarafından oluşturulmuş dünya gözlerinizin önüne geliyordu. Şimdi ise yeni bir kavramla yüz yüzeyiz, Augmented Reality. Nasıl tercüme edilir doğru düzgün bilmiyorum ama bu kavramla anlatılmak istenen gerçek dünya görüntüleri üzerine bilgisayar grafiklerini bindirmek ve böylece mevcut algılayışınızı çok öteye götürmek.

Tyler Mitchell´in blogunda anlatılanlara bakılacak olursa Avustralyalı araştırmacılar bir hayli aşama kaydetmiş durumdalar. Fiziksel ortamınızda 3B modelleri nasıl yaratıp onlarla oynayabileceğinizi videolarla gösteren Tinmith Technologies sitesine ve benzer bir teknolojinin kullanıldığı Augmented Reality Quake sitesine göz atmakta fayda var.

Düşünsenize bu Avustralyalı amcaların hazırladığı sırt çantasını ve kaskı giyiyorsunuz, sonra terk edilmiş ve tekinsiz bir binada ilerlemeye başlıyorsunuz, her an koridorun köşesinden korkunç bir canavar çıkabilir ya da belki arkadaşınız sizi vurmaya çalışıyor olabilir. Hangisi gerçek, hangisi hayal? Tabii insanlar bunu coğrafi bilgi sistemleri gibi daha faydalı işler için de kullanmayı düşünüyorlar ;-)

GNU/Linux için yeni bir sözlük: YZC

ridvantulunay

YZC, yeni bir GPL lisanslı sözlük uygulaması.

0.02 sürümü ile yapısına Ezberletici eklenen 65.552 kelimelik güzel bir sözlük.

http://www.yaz-ar.com/home/yzc/ adresinden sözlüğe ve kaynak koduna erişebilirsiniz.

Sözlük GAMBAS ve SQLITE kullanılarak hazırlanmaktadır, ilerleyen sürümlerde yapısına sınavcı, genişletilebilirlik ve GTK desteği eklenecektir.

Windowsçular için Açık Kaynak Kodlu Yazılımlar

FZ

Bir grup cesur adam demiş ki "GNU/Linux ile haşır neşir olanlar zaten açık kodlu yazılım, özgür yazılım nedir ne değildir biliyor, biz MS Windows kullananları hedefleyerek şöyle ortaya karışık bir güzellik yapalım adını da TheOpenCD projesi koyalım."

Evet, aynen böyle demişler ve binbir değişik yerden download edebileceğiniz bir CD hazırlamışlar bunun içine de masaüstü kullanıcısını hedefleyerek OpenOffice.org, DictInstall, AbiWord, Beonex Communicator, FileZilla, Putty, WinVNC, XChat, Audacity, CDex,7-Zip, NetTime, Win Privacy Tray, Sokoban YASC 1.53, Celestia gibi yazılımları koymuşlar.

CD'de söz konusu yazılımlara ek olarak açık kaynak kodlu yazılım felsefesi ile ilgili makaleler ve başka bilgiler de mevcut.

Looking Glass 3D LiveCD

halixus

Looking Glass 3D LiveCD 2.3a yayinlandi. Looking Glass 3D yi kuramayanlar, kurupta çalıştıramayanlar düşünülerek hazırlanmış. Slax tabanlı bir Live3d yaklaşık olarak 250MB boyutunda. LG3D nedir nasıl bir şeydir diye merak edenler için iso dosyası indirilmeye hazır. Minimum 2GHz işlemci ve 512MB RAM ile çalıştırmanız önerilmekte. Daha önceki sürümündeki hatalar giderilmiş. En azından çalışabilir bir sürüm olmuş.Pencereleri 360 derece döndürmek, yakınlaştırıp uzaklaştırmak oldukça eğlenceli. Bu sürümünde gaim ve firefox la birlikte geliyor. Ekran görüntüleri ise burada.