Python tabanlı Türkçe deasciifier

0
FZ
Kısa süre önce Deniz Yüret'in Türkçe 'deasciifier'ını (turkish-mode, Emacs Lisp ile yapılmış) Python'a çevirdim. Kaynak kod adresi: http://github.com/emres/deasciifier.

'deasciification' ve 'deasciifier' terimlerine aşina olmayanlar için kısa açıklama: Türkçe harfler kullanılmadan, sadece ASCII harfler ile yazılmış Türkçe metinlerin, düzgün şekilde Türkçe harfler kullanılarak yazılmış hale çevrilmesine 'deasciification' denir. Bu duruma bir örnek verelim, girdi metni mesela

"Opusmegi cagristiran catirtilar."

ise, çıktı metni şöyle olmalıdır:

"Öpüşmeği çağrıştıran çatırtılar."
Peki ama kim Türkçe harfleri kullanmadan Türkçe yazar, buna benzer durumlar ne zaman karşımıza çıkar? Mesela klavyeniz Türkçe olmayabilir, tembel olabilirsiniz, yahut IMDb'deki Türk film isimlerini Türkçe harfli hale getirmeniz gerekiyor olabilir (örn. "Yahsi bati"yi "Yahşi Batı" yapmanız gerekebilir).

Her ne kadar bu işi ya da benzerini yapan sistemler daha önceden geliştirilmiş olsa da Python ile yeniden yazmanın gerekli olduğuna karar verip bunu gerçekleştirdim çünkü:

- Deniz Yüret'in geliştirdiği turkish-mode Emacs için Emacs Lisp ile geliştirilmiş bir sistem. Ben de Emacs kullanıyorum ama çoğunluk için bu durum geçerli değil.

- Bu sistemin Javascript implementasyonu http://turkce-karakter.appspot.com/ adresinde mevcut ve son kullanıcı için pratik fakat komut satırından yahut kendi programları içinden iş yapmak isteyen programcılar için çok pratik değil.

- Zemberek tabanlı bir 'deasciifier' açık kodlu olarak erişilebilir durumda ve web tabanlı hali de var http://zemberek-web.appspot.com/ adresinde ama yine programcılar için çok pratik değil. Tek istediğiniz pratik şekilde 'deasciification' yapmak ise önce Java kurmak, ardından da tam teşeküllü bir imla kontrol sistemini devreye sokmak, vs. biraz yorucu bir iş. Ayrıca Zemberek'in kullandığı yöntemler farklı ve bazı metinleri düzgün 'deasciify' edemiyor.

- Sabancı Üniversitesi'de Gökhan Tür tarafından geliştirilmiş (ve burada bahsedilen deasciifier'a ilham kaynağı olmuş) sistemin bazı kısıtkamaları var: Kaynak kodu açık değil, sistemi download edemiyorsunuz, web arayüzünün uzunluk limiti var. Ayrıca neden verilerinizi bir başkası ile paylaşmak zorunda kalasınız ki?

Şimdi de birkaç kullanım örneği, önce Python içinden:



Ve şimdi de komut satırından:

$ echo "Yilanlarin Ocu" | python deasciify.py 
Yılanların Öcü

echo "Hic fena olmadi sanirim, ne dersin hocam?" | python deasciify.py 
Hiç fena olmadı sanırım, ne dersin hocam?


Elbette bu deasciifier da mükemmel değil, bazen hata yapabiliyor ancak anadili Türkçe olan biri olarak pratik olarak hemen her türlü durumda işe yaradığını ve çok pratik olduğunu söyleyebilirim. Sistemin ardındaki teoriyi merak ediyorsanız Deniz Yüret'in makalesini okuyabilirsiniz. Bu sisteme eklenebilecek en heyecan verici özellik herhalde sistem çalışırken onun hatalarını düzeltip sistemi eğitebilme özelliği olurdu ancak bu başka bir projenin konusu olsun şimdilik. Şimdiki yakın vadeli planlarım arasında şunlar var: Sisteme web arayüzü eklemek, daha da kolay kullanılmasını sağlamak için Python Package Index'e eklemek, kendi başına çalışan GUI tabanlı bir versiyon geliştirmek ve Linux ile Windows'da kolayca kullanılabilmesini sağlayacak şekilde eklemeler yapmak.

Not: Bu yazı http://ileriseviye.org/blog/?p=3274 adresindeki İngilizce yazının çevirisidir.

Görüşler

0
FZ
0
pichoscosama
Çalışma prensibi nedir? "Yilan" kelimesinin "Yılan" olduğu nasıl algılanmakta? Office veya FF gibi kelimelerin olduğu bir liste mi var?
0
FZ
Bir tür liste var evet ancak karar listesi denen özel bir yapı kullanıyor ve bu yapı da epey büyük bir Türkçe metin yığını üzerinden istatistik analiz ile oluşturukmuş durumda. Bunu gerçekleştiren Deniz Yüret'in özgün makalesini okursanız orada detaylar mevcut: http://www.denizyuret.com/2006/11/emacs-turkish-mode.html ve "Greedy prepend algorithm for decision list induction".
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Looking Glass 3D LiveCD

halixus

Looking Glass 3D LiveCD 2.3a yayinlandi. Looking Glass 3D yi kuramayanlar, kurupta çalıştıramayanlar düşünülerek hazırlanmış. Slax tabanlı bir Live3d yaklaşık olarak 250MB boyutunda. LG3D nedir nasıl bir şeydir diye merak edenler için iso dosyası indirilmeye hazır. Minimum 2GHz işlemci ve 512MB RAM ile çalıştırmanız önerilmekte. Daha önceki sürümündeki hatalar giderilmiş. En azından çalışabilir bir sürüm olmuş.Pencereleri 360 derece döndürmek, yakınlaştırıp uzaklaştırmak oldukça eğlenceli. Bu sürümünde gaim ve firefox la birlikte geliyor. Ekran görüntüleri ise burada.

Yeni bir YSA Eğitme Algoritması

FZ

Idaho State University´deki Vitit Kantabutra ve ekibi YSA (Yapay Sinir Ağları) sistemlerinin eğitilmesi için yeni ve öncekilere kıyasla çok daha yüksek performanslı ve doğru çalışan bir eğitim algoritması geliştirdiler.

Egzotik Programlama Araçları Yaygınlaşıyor

FZ

TDK sözlüğüne göre "egzotik" kelimesinin anlamı: "Uzak, yabancı ülkelerle ilgili, bu ülkelerden getirilmiş, yabancıl." Bir çoğumuz için yapay sinir ağları, genetik programlama, Common Lisp, PROLOG gibi güçlü teknolojiler "günlük" programlama deneyimlerinin ötesindeki karanlık ve gizemli alanlar, uzak diyarlar. eWeek'e göre ise bu durum hızla değişiyor.

Türkçe Wiki/Blog Melezi Wikepage'in Yeni Sürümü Çıktı

anonim

Veritabanı gerektirmeyen ve yaklaşık 30 KB büyüklüğünde wiki / blog melezi Wikepage'in yeni sürümü Opus 11 2006.3 çıktı. Çoğunlukla hataları giderilen ve optimize edilen bu sürümde, birkaç ufak özellik de eklenmiş. Ayrıntılı bilgiyi wikepage sitesinde bulabilirsiniz.

Not: Ön tanımlı olarak İngilizce seçili gelen Wikepage'i Türkçe kullanabilmek için aynı sayfadan Türkçe dil dosyasını da indirmeniz gerekiyor.

Yapay Zekâ ve Müzik Üstüne

FZ

Bu makale sizi müzik ve yapay zekâ alanlarının arakesitinde kısa bir yolculuğa çıkaracaktır. Uygulamalar, yöntemler ve algoritmalar kısaca sunulacak ve tarihsel gelişim ele alınacaktır. Makale içindeki bağları verilmiş olan örnek müzik dosyaları ve videoları, günümüzde varılan noktaya dair ipuçları içermektedir.

Makale, 2004-2005 eğitim dönemi, güz yarıyılında, Boğaziçi Üniversitesi, Bilgisayar Müh. yüksek lisansı programında Doç. Dr. Levent Akın tarafından verilmiş olan Principles Of Artificial Intelligence (Yapay Zekâ Prensipleri) dersi için bir literatür taraması (literature survey report) olarak hazırlanmış olan makalenin Türk diline çevrilmiş, kısaltılmış ve düzenlenmiş halidir. Makalenin hazırlanmasında eleştirileri ile bana destek veren kardeşim Ergin Sevinç'e, Bülent Murtezaoğlu'na ve comp.ai sakinlerine teşekkürü bir borç bilirim. Makalenin orjinali http://ileriseviye.org/arasayfa.php?inode=ai-music.html adresindedir.