Dilbilim ve Linux Buluşması: Morphix-NLP İncelemesi

0
FZ
DDİ (Doğal Dil İşleme, NLP - Natural Language Processing) yaklaşık son 40 yıldır önemli bir araştırma disiplini olagelmiştir. Dilbilim ve bilgisayar bilimleri yöntemlerini bir araya getiren bu alanda pek çok değişik uygulama ve çözüm bekleyen önemli problemler mevcuttur. Farklı dillerdeki çok büyük metin dosyalarını incelemek, örüntüleri (pattern) keşfetmek, dönüşümleri gerçekleştirmek, metinleri otomatik olarak sınıflandırmak, konuşma sentezlemek ve konuşmayı anlayıp metne dönüştürebilmek, bilgisayarları bizim anadilimizi anlayabilir hale getirmek yani onlara semantik yetiler kazandırmak, vs. DDİ dalındaki önemli meselelerden sadece birkaçıdır.
DDİ konusunda çalışan Çinli araştırmacı Zhang Le, dil analizi ve dil işleme konusundaki en önemli yazılımların büyük bir bölümünü tespit edip bunları tek bir bootable CD´ye yani Morphix-NLP içine yerleştirmiş. Söz konusu CD´de 640 MB´ın üzerinde DDİ işleme yazılımı mevcut ve sıkıştırılmış bir dosya sistemi kullanan CD´nin kapasitesine baktığımızda daha pek çok yazılımı içine yerleştirebilecek kadar boş yerin bulunduğunu görebiliyoruz.

İncelemenin devamını buradan okuyabilirsiniz.

Not: Söz konusu yazıyı daha önce yazdığım şu yazıdan tercüme ettim. Dolayısı ile bazı yerleri bir miktar abuk sabuk gelmiş olabilir, önerisi olan varsa bazı terimler için seve seve gerekli değişiklikleri yaparım :)

Görüşler

0
sametc
bu haberi sanırım bir yerden okudum ama nertden tabiiki slashdot.org :))
0
sametc
durun yanlıs anlasılmasın FZ yazmıstı o haberi ordan dikkatimi cekti ondan dedim bunu
0
FZ
Evet, makalenin İngilizce özgün şeklinin haberini Slashdot sitesinde duyurmuştum ve tabii ileriseviye.org da bir süreliğine meşhur slashdot etkisine maruz kaldı :)

İşin güzel yanı ve buradan farkı haber orada çıktıktan sonra birkaç saat içinde haberin altında 140 kadar yorum vardı. Aralarında ise Linux uzmanlarından tutun, dilbilimcilere, antropolojiyle ilgilenenlerden tutun otomatik tercüme ile ilgilenen insana kadar çok farklı kesimden insan vardı, açıkçası bu kadar çok ve farklı yorum beklemiyordum, hem şaşırdım hem sevindim :) Gönül ister ki aynı kültürel ve entelektüel çeşitliliği bu ortamda da yaşayalım ;-)
0
sametc
değilmi FZ insallah oyle bir ortam olur fazlamesai yakında insallah :) bakıyorum son zamanlarda yorumlar azalıyor :( ve fazlamesai sadece bilgisayar ve linux sitesi olarak anılıyor bu yanlıs bu imajı duzeltmek lazım.:) saygılarımla
0
malkocoglu
DDI'de istatistik kullanimi ilginc: Bu fikrin daha ilkel bir sekli, tarihi belgelerin yazarlarini bulmak icin kullanilmisti diye hatirliyorum. ABD'de ilk cikan politik dergilerde gunun onemli adamlari takma isimlerle yazilar yayinliyorlarmis. Bu makalelerin yazarlari tarihi ispatlardan sonradan bulunabilmisti, fakat bazilarinin kim oldugu bir turlu anlasilamadi. Bunun uzerine tarihciler, zamanin unlu adamlarin ozel mektuplarindaki "the", "a", "in" vs gibi kelimeleri sayarak, bu sayilari anonim makaleler ile karsilastirdilar, ve yazarlari tespit ettiler. Kullanilan kelimelerinin sayisinin insandan insana degismesi ilginc, ama biraz dusununce mantikli geliyor. Hepimizin favori kelimeleri var demek ki! (Mesela bu yorumda mesela "bu" kelimesini 5 kere kullanmisim)
Görüş belirtmek için giriş yapın...

İlgili Yazılar

Google Hikayesi / Çağımızın En Yeni İş, Medya ve Teknoloji Başarısı

darkhunter

Orjinal adı Google Story olan ve Koridor Yayıncılık tarafından yayınlanan kitabın (çeviri: Gökçe Köse) yazarları David A. Vise ve Mark Malseed.

Kitabın içeriği ise şöyle :

RSS Dosyası Yapısı

ctengiz

RSS aslında sitelerin içeriklerini başlıklar şeklinde sunmak için kullanılan bir teknoji ve temeli de bir XML dosyası. Açılımı Rich Site Summary veya Really Simple Syndication. İlk olarak 1999 Netscape tarafından ortaya çıkarılan bu teknoloji daha sonra çeşitli gruplar tarafından geliştirildi. Tarihçe ve versiyonlar ile daha detaylı bilgi için yazının sonundaki kaynaklara başvurulabilir.

Matematik Dünyası - Yeni Sayı Çıktı

FZ

Türkiye´nin yegâne popüler matematik ve bilgisayar bilimleri dergisi Matematik Dünyası´nın son sayısı çıktı.

İstanbul Bilgi Üniversitesi desteği ile çıkan derginin son sayının kapak konusu ``2 x 2 = 4´´. Evet yanlış okumadınız. Aşikar gibi görünen bu ifadenin temel kavramlar oluşturulup nasıl ispatlandığını bu sayıda okuyup matematiğin harika dünyasında eğlenceli bir gezintiye çıkabilirsiniz.

Bilgisayar bilimcilerinin ilgisini çekecek bölümlerden biri ise Chris Stephenson´un Bilgisayar Bilimi köşesinde ele aldığı ``Sayıları Tepeleyerek Sıralamak´´ başlıklı makale. Bu yazıda çeşitli sıralama algoritmalarının algoritmik karmaşıklığı inceleniyor ve ilginç örnekler veriliyor.

İstatistiklere göre derginin abone sayısı 4200´ü, satışı ise 8000´i geçmiş durumda ancak Prof. Dr. Ali Nesin, bunun Türkiye´nin nüfusuna (ve genç nüfusuna) sahip bir ülke için hala çok düşük olduğunu vurguluyor haklı olarak. Bu sayının artmasını ümit ediyoruz.

Dopdolu ve Türkçe GNU/Linux Dergisi

FZ

LinuxFocus'un ilk sayısı Kasım 1997´de çıktı. LinuxFocus, İngilizce konuşulmayan ülkerdeki Linux hayranlarının elinde, Linux ile ilgili yazılı kaynakların ve onlar için desteğinin pek olmadığının anlaşılması üzere, Miguel Angel Sepulveda ve arkadaşları tarafından başlatılmıştır.

Derginin Kasım -Aralık 2003 sayısındaki konulardan birkaç örnek vermek gerekirse: GIMP: Kendi fırçalarınızı oluşturun, Blender ile 3D: Bir oda dolusu oyuncak, Çokluişlem programlama - Mesaj kuyrukları (3), Linux ile sıcaklık izleme

Yazıcıdan Güzel Kod Basmak (Pretty Print)

malkocoglu

Kod gözden geçirme (code review) toplantılarında olmazsa olmaz olan "2 kod sayfası bir yazıcı sayfasına" denk gelecek, ve her satırın numaralı olacak şekilde gosteren bir yazıcı çıktısıdır. Bunun için kullanılan enscript programının kuruluşu, Ghostview, Ghostscript ve Emacs ile yapılan bağlantılarının nasıl olacağını aşağıdaki yazıda anlatılmıştır.

http://www.bilgidata.com/yazi.jsp?dosya=a_enscript.xml