Dilbilim ve Linux Buluşması: Morphix-NLP İncelemesi

0
FZ
DDİ (Doğal Dil İşleme, NLP - Natural Language Processing) yaklaşık son 40 yıldır önemli bir araştırma disiplini olagelmiştir. Dilbilim ve bilgisayar bilimleri yöntemlerini bir araya getiren bu alanda pek çok değişik uygulama ve çözüm bekleyen önemli problemler mevcuttur. Farklı dillerdeki çok büyük metin dosyalarını incelemek, örüntüleri (pattern) keşfetmek, dönüşümleri gerçekleştirmek, metinleri otomatik olarak sınıflandırmak, konuşma sentezlemek ve konuşmayı anlayıp metne dönüştürebilmek, bilgisayarları bizim anadilimizi anlayabilir hale getirmek yani onlara semantik yetiler kazandırmak, vs. DDİ dalındaki önemli meselelerden sadece birkaçıdır.
DDİ konusunda çalışan Çinli araştırmacı Zhang Le, dil analizi ve dil işleme konusundaki en önemli yazılımların büyük bir bölümünü tespit edip bunları tek bir bootable CD´ye yani Morphix-NLP içine yerleştirmiş. Söz konusu CD´de 640 MB´ın üzerinde DDİ işleme yazılımı mevcut ve sıkıştırılmış bir dosya sistemi kullanan CD´nin kapasitesine baktığımızda daha pek çok yazılımı içine yerleştirebilecek kadar boş yerin bulunduğunu görebiliyoruz.

İncelemenin devamını buradan okuyabilirsiniz.

Not: Söz konusu yazıyı daha önce yazdığım şu yazıdan tercüme ettim. Dolayısı ile bazı yerleri bir miktar abuk sabuk gelmiş olabilir, önerisi olan varsa bazı terimler için seve seve gerekli değişiklikleri yaparım :)

Görüşler

0
sametc
bu haberi sanırım bir yerden okudum ama nertden tabiiki slashdot.org :))
0
sametc
durun yanlıs anlasılmasın FZ yazmıstı o haberi ordan dikkatimi cekti ondan dedim bunu
0
FZ
Evet, makalenin İngilizce özgün şeklinin haberini Slashdot sitesinde duyurmuştum ve tabii ileriseviye.org da bir süreliğine meşhur slashdot etkisine maruz kaldı :)

İşin güzel yanı ve buradan farkı haber orada çıktıktan sonra birkaç saat içinde haberin altında 140 kadar yorum vardı. Aralarında ise Linux uzmanlarından tutun, dilbilimcilere, antropolojiyle ilgilenenlerden tutun otomatik tercüme ile ilgilenen insana kadar çok farklı kesimden insan vardı, açıkçası bu kadar çok ve farklı yorum beklemiyordum, hem şaşırdım hem sevindim :) Gönül ister ki aynı kültürel ve entelektüel çeşitliliği bu ortamda da yaşayalım ;-)
0
sametc
değilmi FZ insallah oyle bir ortam olur fazlamesai yakında insallah :) bakıyorum son zamanlarda yorumlar azalıyor :( ve fazlamesai sadece bilgisayar ve linux sitesi olarak anılıyor bu yanlıs bu imajı duzeltmek lazım.:) saygılarımla
0
malkocoglu
DDI'de istatistik kullanimi ilginc: Bu fikrin daha ilkel bir sekli, tarihi belgelerin yazarlarini bulmak icin kullanilmisti diye hatirliyorum. ABD'de ilk cikan politik dergilerde gunun onemli adamlari takma isimlerle yazilar yayinliyorlarmis. Bu makalelerin yazarlari tarihi ispatlardan sonradan bulunabilmisti, fakat bazilarinin kim oldugu bir turlu anlasilamadi. Bunun uzerine tarihciler, zamanin unlu adamlarin ozel mektuplarindaki "the", "a", "in" vs gibi kelimeleri sayarak, bu sayilari anonim makaleler ile karsilastirdilar, ve yazarlari tespit ettiler. Kullanilan kelimelerinin sayisinin insandan insana degismesi ilginc, ama biraz dusununce mantikli geliyor. Hepimizin favori kelimeleri var demek ki! (Mesela bu yorumda mesela "bu" kelimesini 5 kere kullanmisim)
Görüş belirtmek için giriş yapın...

İlgili Yazılar

İleti Kuyrukları İle Daha Etkin ve Performanslı Programlama

malkocoglu

Programlararası bilgi göndermeğe yardımcı olan ileti kuyrukları (message queue) bilgi işlemcilerin elindeki önemli silahlardan biridir. Özellikle bilgi alışverişi yapan sistemler farklı amaçlarla, zamanlarda, ve programcılar tarafından kurulmuş sistemler olunca, bağlantıyı kurmak için ileti kuyrukları daha uygun oluyor. IBM MQ Series üzerinden anlattığımız bu konunun yararlı olacağını umuyoruz.

MQ Series - İleti Kuyruğu

MQ Series Nasıl Kurulur

Kabalcı Kapandı

butch

Beşiktaş ve aslında bütün İstanbul sakinleri için simge mekanlardan biri, Kabalcı Kitabevi kapandı.

Kabalcı'yı özellikle, yayınladığı pek çok “niş” nitelikteki kitap ve tabi belki bizim için en önemlisi Otostopçunun Galaksi Rehberi'ni tekrar basımıyla severek anıyoruz. Yaklaşık 30 yıldır kitap severlerin önemli bir durağı, İstanbul sakinlerinin buluşma yeriydi Kabalcı. Kapanışının...

Kent Pitman Lisp ve ötesi ile ilgili soruları yanıtladı - Bölüm 1

FZ

Kent Pitman, 2001 yılının sonuna doğru Slashdot camiasının Lisp/Scheme, standartlar, yazılım geliştirme ve diğer konulardaki sorularını cevapladı, merakları nı giderdi. Bir hayli detaylı olan bu soru cevap seansı uzunluğundan ötürü iki bölümde yayınlandı. Birinci bölüm huzurlarınızda...

Visualizing Data: Bir Kitap Eleştirisi ve Görselleştirme Örneği

FZ

Bu yazıda son zamanlarda gittikçe önem kazanmaya başlayan veri görselleştirme konusuna kısa bir giriş yaptıktan sonra Processing programlama ortamının geliştiricisi Ben Fry'ın bu sene çıkardığı 'Visualizing Data: Exploring and Explaining Data with the Processing Environment' kitabının tanıtımı ve eleştirisini gerçekleştireceğim.

Başka bir deyişle, görselleştirme konusuna ve önemine kısaca değindikten sonra kitabın bu konuda neler söylediği aktaracak ve kitaptan aldığım ilham ile iş dünyasına dair basit bir görselleştirme uygulaması örneği vereceğim: Bilgi Üniversitesi'nin eMBA programına gerçekleşen başvuruların yıllara ve coğrafyaya göre dağılımının animasyonu.

Python Paradoksu

FZ

Paul Graham, geçenlerde (2004 Ağustos'unda) kısa bir makale yazmış, bakalım ne demiş:

"Kısa bir süre önce gerçekleştirdiğim bir konuşmada pek çok insanı hayalkırıklığına uğratan bir laf ettim: Python tabanlı bir proje için bulabileceğiniz programcılar, Java tabanlı bir projeye çekebileceğiniz programcılardan daha zeki olacaktır.

Kast ettiğim Java programcılarının aptal olduğu değil. Kast ettiğim şey, Python programcılarının daha akıllı olduğu. Yeni bir programlama dilini sıfırdan öğrenmek çaba gerektirir. Ve insanlar Python'u yeni bir iş bulabilirler diye öğrenmiyorlar; insanlar Python'u öğreniyor çünkü gerçekten programlamayı seviyorlar ve halihazırda kullandıkları dillerden memnun değiller.