Dilbilim ve Linux Buluşması: Morphix-NLP İncelemesi

0
FZ
DDİ (Doğal Dil İşleme, NLP - Natural Language Processing) yaklaşık son 40 yıldır önemli bir araştırma disiplini olagelmiştir. Dilbilim ve bilgisayar bilimleri yöntemlerini bir araya getiren bu alanda pek çok değişik uygulama ve çözüm bekleyen önemli problemler mevcuttur. Farklı dillerdeki çok büyük metin dosyalarını incelemek, örüntüleri (pattern) keşfetmek, dönüşümleri gerçekleştirmek, metinleri otomatik olarak sınıflandırmak, konuşma sentezlemek ve konuşmayı anlayıp metne dönüştürebilmek, bilgisayarları bizim anadilimizi anlayabilir hale getirmek yani onlara semantik yetiler kazandırmak, vs. DDİ dalındaki önemli meselelerden sadece birkaçıdır.
DDİ konusunda çalışan Çinli araştırmacı Zhang Le, dil analizi ve dil işleme konusundaki en önemli yazılımların büyük bir bölümünü tespit edip bunları tek bir bootable CD´ye yani Morphix-NLP içine yerleştirmiş. Söz konusu CD´de 640 MB´ın üzerinde DDİ işleme yazılımı mevcut ve sıkıştırılmış bir dosya sistemi kullanan CD´nin kapasitesine baktığımızda daha pek çok yazılımı içine yerleştirebilecek kadar boş yerin bulunduğunu görebiliyoruz.

İncelemenin devamını buradan okuyabilirsiniz.

Not: Söz konusu yazıyı daha önce yazdığım şu yazıdan tercüme ettim. Dolayısı ile bazı yerleri bir miktar abuk sabuk gelmiş olabilir, önerisi olan varsa bazı terimler için seve seve gerekli değişiklikleri yaparım :)

Görüşler

0
sametc
bu haberi sanırım bir yerden okudum ama nertden tabiiki slashdot.org :))
0
sametc
durun yanlıs anlasılmasın FZ yazmıstı o haberi ordan dikkatimi cekti ondan dedim bunu
0
FZ
Evet, makalenin İngilizce özgün şeklinin haberini Slashdot sitesinde duyurmuştum ve tabii ileriseviye.org da bir süreliğine meşhur slashdot etkisine maruz kaldı :)

İşin güzel yanı ve buradan farkı haber orada çıktıktan sonra birkaç saat içinde haberin altında 140 kadar yorum vardı. Aralarında ise Linux uzmanlarından tutun, dilbilimcilere, antropolojiyle ilgilenenlerden tutun otomatik tercüme ile ilgilenen insana kadar çok farklı kesimden insan vardı, açıkçası bu kadar çok ve farklı yorum beklemiyordum, hem şaşırdım hem sevindim :) Gönül ister ki aynı kültürel ve entelektüel çeşitliliği bu ortamda da yaşayalım ;-)
0
sametc
değilmi FZ insallah oyle bir ortam olur fazlamesai yakında insallah :) bakıyorum son zamanlarda yorumlar azalıyor :( ve fazlamesai sadece bilgisayar ve linux sitesi olarak anılıyor bu yanlıs bu imajı duzeltmek lazım.:) saygılarımla
0
malkocoglu
DDI'de istatistik kullanimi ilginc: Bu fikrin daha ilkel bir sekli, tarihi belgelerin yazarlarini bulmak icin kullanilmisti diye hatirliyorum. ABD'de ilk cikan politik dergilerde gunun onemli adamlari takma isimlerle yazilar yayinliyorlarmis. Bu makalelerin yazarlari tarihi ispatlardan sonradan bulunabilmisti, fakat bazilarinin kim oldugu bir turlu anlasilamadi. Bunun uzerine tarihciler, zamanin unlu adamlarin ozel mektuplarindaki "the", "a", "in" vs gibi kelimeleri sayarak, bu sayilari anonim makaleler ile karsilastirdilar, ve yazarlari tespit ettiler. Kullanilan kelimelerinin sayisinin insandan insana degismesi ilginc, ama biraz dusununce mantikli geliyor. Hepimizin favori kelimeleri var demek ki! (Mesela bu yorumda mesela "bu" kelimesini 5 kere kullanmisim)
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Bilgisayar Uzmanlığı kitabı çıktı...

anonim

Hepimizin bildiği gibi, üniversitelerin Bilgisayar muhendisliği bölümlerinden mezun olanlar, ihtiyacı karşılayamadığı için, branş dışı pek çok insan bilgisayar mühendislerine ait görevleri üstlenmeye başladılar. Bu arkadaşların bilgileri genellikle belli bir teknoloji uzerine kurulu ve bilgisayar mühendisliği bolumlerinde okutulan temel bilgilerden yoksun durumdalar.

Bilgisayar mühendisliği bölümlerinde okuyan arkadaşlar ise, öğrendikleri teorik bilgilerin çalışma hayatında nasıl kullanılacağı hatta kullanılıp kullanılmayacağı konusunuda yeterli bilgiye sahip değiller.

A Byte of Python

roktas

OSnews sitesinde gezinirken gözüme ilişti. Komple boyutta yeni bir Python kitabı. Yazarının ifadesiyle Python belgelerinin listelendiği sayfada Guido van Rossum´ un Python tutoryalinden hemen sonra ikinci sırada yerini almış.

A Byte of Python

AçıkAkademi'den TCP/IP ve Ağ Güvenliği Kitabı

honal

Her geçen gün kalitesini artıran ve yayın yelpazesini genişleten yayınevimiz yeni kitabını siz okuyuculara sunmaktan büyük mutluluk duymaktadır.

"Teori ve Uygulamalar ile TCP/IP ve Ağ Güvenliği" ismini taşıyan kitabımızın yazarı Can Okan Dirican'dır. Yazarın üzerinde aylardır emek harcadığı ve alanında yetkin uluslararası tüm kaynakları referans olarak kullandığı kitap TCP/IP ile ilgili hemen her konuyu içermektedir.

Web Madenciliği ile Daha İyi Bir E-öğrenme Modeli Mümkün Mü?

FZ

Web madenciliği kısaca Web sayfaları ve servislerinden otomatik olarak bilgi çekip bunlardaki kalıpları keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir. Acaba makina öğrenme (machine learning) ve veri madenciliği (data mining) tekniklerinin özel bir dalı olan web madenciliği yöntemleri ile daha iyi e-öğrenme sistemleri geliştirmek mümkün müdür?

Missouri-Columbia Üniversitesinden James Laffey ve Jiye Ai'nin "Web Mining as a Tool for Understanding Online Learning" başlıklı makalesi bu ve benzeri sorulara olumlu cevaplar vermenin yanısıra güzel ve pratik bir örnek de gösteriyor: Yazıda somut olarak bir Blackboard (webct) e-öğrenme sisteminin web madenciliği ile nasıl daha da faydalı ve verimli hale getirilebileceği anlatılıyor.

Araştırmacılar, makalenin başında web madenciliği tekniklerinin başlıca şu üç noktada ciddi fayda getireceğini belirtmişler: devamı burada...

Ruby ile Zamanlı Süreç İşletmek

malkocoglu

İşyerinde şöyle bir probleme çözüm bulmamız gerekti: Her gece çalışan toptan işleyen (batch) programlar var. Bu programlar SQL kullanarak veri tabanından veriyi dışarı, metin dosyasına aktarıyorlar. Ya da veri tabanında yedekleme yapıyorlar.


Fakat bazen bu programlar ya takılıp kalıyor, ya hiç işlemiyor, ya da tam işlerken arıza çıkıyor. Çözüm olarak, Ruby dilinde yeni bir betik tasarladık. Bu betik, "işletici" ve "izleyici" türden bir program olacaktı.

Gerisi icin Süreç İzleyen Ruby Programcığı