Python tabanlı Türkçe deasciifier

0
FZ
Kısa süre önce Deniz Yüret'in Türkçe 'deasciifier'ını (turkish-mode, Emacs Lisp ile yapılmış) Python'a çevirdim. Kaynak kod adresi: http://github.com/emres/deasciifier.

'deasciification' ve 'deasciifier' terimlerine aşina olmayanlar için kısa açıklama: Türkçe harfler kullanılmadan, sadece ASCII harfler ile yazılmış Türkçe metinlerin, düzgün şekilde Türkçe harfler kullanılarak yazılmış hale çevrilmesine 'deasciification' denir. Bu duruma bir örnek verelim, girdi metni mesela

"Opusmegi cagristiran catirtilar."

ise, çıktı metni şöyle olmalıdır:

"Öpüşmeği çağrıştıran çatırtılar."
Peki ama kim Türkçe harfleri kullanmadan Türkçe yazar, buna benzer durumlar ne zaman karşımıza çıkar? Mesela klavyeniz Türkçe olmayabilir, tembel olabilirsiniz, yahut IMDb'deki Türk film isimlerini Türkçe harfli hale getirmeniz gerekiyor olabilir (örn. "Yahsi bati"yi "Yahşi Batı" yapmanız gerekebilir).

Her ne kadar bu işi ya da benzerini yapan sistemler daha önceden geliştirilmiş olsa da Python ile yeniden yazmanın gerekli olduğuna karar verip bunu gerçekleştirdim çünkü:

- Deniz Yüret'in geliştirdiği turkish-mode Emacs için Emacs Lisp ile geliştirilmiş bir sistem. Ben de Emacs kullanıyorum ama çoğunluk için bu durum geçerli değil.

- Bu sistemin Javascript implementasyonu http://turkce-karakter.appspot.com/ adresinde mevcut ve son kullanıcı için pratik fakat komut satırından yahut kendi programları içinden iş yapmak isteyen programcılar için çok pratik değil.

- Zemberek tabanlı bir 'deasciifier' açık kodlu olarak erişilebilir durumda ve web tabanlı hali de var http://zemberek-web.appspot.com/ adresinde ama yine programcılar için çok pratik değil. Tek istediğiniz pratik şekilde 'deasciification' yapmak ise önce Java kurmak, ardından da tam teşeküllü bir imla kontrol sistemini devreye sokmak, vs. biraz yorucu bir iş. Ayrıca Zemberek'in kullandığı yöntemler farklı ve bazı metinleri düzgün 'deasciify' edemiyor.

- Sabancı Üniversitesi'de Gökhan Tür tarafından geliştirilmiş (ve burada bahsedilen deasciifier'a ilham kaynağı olmuş) sistemin bazı kısıtkamaları var: Kaynak kodu açık değil, sistemi download edemiyorsunuz, web arayüzünün uzunluk limiti var. Ayrıca neden verilerinizi bir başkası ile paylaşmak zorunda kalasınız ki?

Şimdi de birkaç kullanım örneği, önce Python içinden:



Ve şimdi de komut satırından:

$ echo "Yilanlarin Ocu" | python deasciify.py 
Yılanların Öcü

echo "Hic fena olmadi sanirim, ne dersin hocam?" | python deasciify.py 
Hiç fena olmadı sanırım, ne dersin hocam?


Elbette bu deasciifier da mükemmel değil, bazen hata yapabiliyor ancak anadili Türkçe olan biri olarak pratik olarak hemen her türlü durumda işe yaradığını ve çok pratik olduğunu söyleyebilirim. Sistemin ardındaki teoriyi merak ediyorsanız Deniz Yüret'in makalesini okuyabilirsiniz. Bu sisteme eklenebilecek en heyecan verici özellik herhalde sistem çalışırken onun hatalarını düzeltip sistemi eğitebilme özelliği olurdu ancak bu başka bir projenin konusu olsun şimdilik. Şimdiki yakın vadeli planlarım arasında şunlar var: Sisteme web arayüzü eklemek, daha da kolay kullanılmasını sağlamak için Python Package Index'e eklemek, kendi başına çalışan GUI tabanlı bir versiyon geliştirmek ve Linux ile Windows'da kolayca kullanılabilmesini sağlayacak şekilde eklemeler yapmak.

Not: Bu yazı http://ileriseviye.org/blog/?p=3274 adresindeki İngilizce yazının çevirisidir.

Görüşler

0
FZ
0
pichoscosama
Çalışma prensibi nedir? "Yilan" kelimesinin "Yılan" olduğu nasıl algılanmakta? Office veya FF gibi kelimelerin olduğu bir liste mi var?
0
FZ
Bir tür liste var evet ancak karar listesi denen özel bir yapı kullanıyor ve bu yapı da epey büyük bir Türkçe metin yığını üzerinden istatistik analiz ile oluşturukmuş durumda. Bunu gerçekleştiren Deniz Yüret'in özgün makalesini okursanız orada detaylar mevcut: http://www.denizyuret.com/2006/11/emacs-turkish-mode.html ve "Greedy prepend algorithm for decision list induction".
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Opera, Internet Tarayıcısına BitTorrent Desteği Ekledi

talat

Opera Software, amiral gemisi yazılımı olan Opera internet tarayıcısının BitTorrent desteği eklenmiş deneme sürümünü çıkardı.

Bu eklenti ile Opera, ayrıca bir program gerektiren BitTorrent indirme işlemini kendiliğinden destekleyen ilk internet tarayıcısı oldu.

Ayrıntılar için tıklayın. (eWeek, İngilizce)

MacOS X için Microsoft Office 10

anonim

MS Unix'ler için Office'i çıkarmaya artık iyice karar vermiş gibi gözüküyor. MS'den Kevin Browne New York'daki Mac World'de Mac OS X için MS Office'i anons etti. Darısı Linux a :)

detaylı bilgi için...

Yazılım Geliştirmede Kodlama Stili ve Gösterimin Önemi

maat

Bu yazımızda program yazımında kodlama stilinin öneminden bahsedeceğiz. Geliştirilen yazılımlarda bulunması gereken özelliklerden birisi de "okunabilirlik"tir. İyi bir program sadece yazan kişinin baktığında neyin, nerede nasıl yapıldığını ya da değişkenlerin türlerini anlayabildiği program değil, aksine, kullanılan dilin genel kabul görmüş yazım kurallarına uygun olarak hazırlanmış adeta bakıldığında "şiir gibi okunabilen" programdır. Yazımızın bundan sonraki bölümlerinde kullanılan çeşitli stilleri anlatarak ve örneklerle destekleyerek konumuzu daha da açacağız. Ancak konunun genişliği sebebi ile ancak anahtar noktalara değineceğiz. Anlatılanların daha geniş açıklamaları için kaynaklara bakılabilir.

DeepBlue, IBM ve GO

redial

... “Ne istiyorsanız kullanın. 250 paralel işlemci yetmezse 500 tanesini kullanın, o da yetmediyse bin tane. Eğer o da yetmiyorsa benim `laptop´ıma ve oğlumun `PlayStation´ına el koyabilirsiniz. İşe yarayacak her insanı işe alın, eğer tanrı Zeus size fikir verecekse Yunanların ne dediğini umursamadan ben gidip onu Olimpos’tan sizin için getiririm ama bir büyük GO ustasını yenin yoksa...”

Tamamı için...

Editörün Notu: Mükemmel bir yazı, yazarın eline ve ruhuna sağlık.

İlginç Bir Röportaj

FZ

1995 yılında kuruldu. Şu anda bünyesinde 70 kişiyi istihdam ediyor. Geliştirdikleri ve şirketle aynı isimle anılan açık kaynak kodlu yazılım 4.000.000 yerde kurulu ve sorunsuz olarak çalışıyor. Kendileri ile ticari olarak iş yapan 4.000 müşterileri mevcut. Yahoo! 400 adet gerçek zamanlı, görev kritik uygulamasında bu şirketin yazılımını kullanıyor. Yahoo UK ise tamamen bu yazılıma güveniyor. FIFA World Cup sitesi de aynı yazılımdan faydalanıyor. Bu başarı öyküsünün başındaki adam yani şirketin genel müdürü de Linus Torvalds gibi Finlandiya'lı (ancak Linus'tan farklı olarak Helsinki Teknik Üniversitesi'ne gitmiş, Linus'un Helsinki Üniversitesi'ne gidişini yanlış bir karar olarak değerlendiriyor ve bu iki üniversite arasındaki farkı Berkeley ve Stanford arasındaki farka benzetiyor).

Anahtar sözcüğü hala bulamayanlar bu röportaja göz atabilirler.