Semantik Web, Doğal Dil İşleme, Veri Madenciliği ve Web 3.0: Calais Web Servisi

0
FZ
Herhangi bir metni (haber, makale, blog girdisi, proje planı) kendisine yollayabileceğiniz bir web servisi olsa. Bu servis yolladığınız metni inceleyip size RDF biçiminde semantik metadata bilgisi geri yollasa. Siz de bu bilgi ile mesela herhangi bir yazıya otomatik olarak 'etiket' (tag) öneren bir Wordpress plug-in'i yazsanız. Nasıl olurdu acaba?
OpenCalais işte tam da yukarıdaki senaryonun kritik bileşenini oluşturan bir web servisi. Standart protokoller aracılığı ile Calais web servisine yolladığınız metin verisi oradaki sunucularda çalışan doğal dil işleme, veri madenciliği ve makina öğrenme algoritmaları ile işleniyor ve size metinde geçen varlıklar (kişiler, mekanlar, ürünler, vs.), gerçekler (Bay X falanca ZYK şirketi İÇİN çalışıyor) ve olaylar (Bayan Z filanca KZN şirketinin YÖNETİCİSİ olarak ATANDI) gibi verileri kolayca işleyebileceğiniz XML tabanlı RDF formatında döndürüyor.

Makul bir yol haritası sunan Reuters şirketi, geliştirdiği bu servisi kullanacak uygulamalar için de 5000$'lık ödüller koymuş durumda (mesela Wordpress blog yazılımına böyle bir semantik özellik kazandırmak için).

Editörün Notu: Tabii ki söz konusu sistem Türkçe için çalışmıyor ve kısa sürede Türkçe için böyle bir web servisin sağlıklı ve bedelsiz ya da çok düşük bedelli şekilde devreye girmesini de Türkçe yazılım ekosisteminden beklemiyoruz.

Görüşler

0
towsonu2003
bu biraz alakasiz ama... bi linux distrosu vardi, live cd, icinde neredeyse butun semantic dil inceleme programlarini barindiriyordu. distrowatch.com'da aradim ama bulamadim, ismini de hatirlamiyorum... aranizda hatirlayan var mi? tesekkurler simdiden.
0
FZ
Morphix NLP'yi kast ediyorsunuz sanırım? (İngilizce çevirisi de burada. Slashdot'taki tartışması da burada. FM tartışması ise burada.)
0
towsonu2003
harika, cok tesekkurler
Görüş belirtmek için giriş yapın...

İlgili Yazılar

$1.99'a kadar domain isimleri ama haber bu değil :)

sundance

Godaddy.com bir başka ürünle birlikte alındığı takdirde domain isimlerini $1.99'a kadar düşürmekte.

Fakat asıl haber bunun reklamını Super Bowl'da yapmak için tekrar tekrar başvurup sansür komitesi tarafından reddedilmelerinde. Reddedilen 14 reklamın bir kısmı daha çekilmeden, konsept aşamasında reddedilerek bambaşka bir rekora da imza atmış.. Saldırgan reklamcılık diye buna diyorlar herhalde.

Yurtdışı internet çıkışlarında sorun

SHiBuMi

İnternet kullanıcıları, yurtdışı internet erişiminde sıkıntılar yaşıyor. Türkiye’nin yurtdışı internet erişimini sağlayan alternatif kablolarından biri olan Marmara Denizi’ndeki MedTürk denizaltı kablosu koptu.

Türk Telekom’dan yapılan açıklamaya göre kablo, henüz bilinmeyen bir nedenle bugün 16.15’de koptu. Kablonun kopması nedeniyle, Türkiye’nin saniyede 8.8 gigabit olan yurtdışı internet kapasitesinin, saniyede 3 gigabit’lik bölümü karşılanabiliyor. Alternatif güzergahlardan kapasite temin etme çalışmaları ise sürüyor.

Kaynak: ntvmsnbc.com

Amerika'yı yeniden keşfetmek

sundance

Türkiye’de iş dünyasına atılan, birazcık idealizme sahip herkes, kısa bir süre içinde yeni bir şeyler icat etmek, farklı bir şeyler çıkarmak için harekete geçer. Bazen okuldan yeni çıkmış olmanın naifliğidir itici güç, bazen de yıllar boyunca maruz kalacakları köhneliğin farkına varmanın refleksif tepkisidir bunu yaptıran.

Ama “icat çıkarma” lafının çöreklendiği bu coğrafyada “salyangoz satmak”...

Google´da Nasıl Tepeye Oturursunuz

FZ

Efsanevi arama sitesi Google bilindiği üzere PageRank(tm) diye bir teknoloji kullanıyor ve "A sayfası B sayfasına linkli ise A, B'ye oy vermiştir dolayısı ile B'nin arandığında tepede çıkma şansı artmıştır" şeklinde özetlenebilecek bir mantaliteye göre işliyor. Google firması bunun "demokratik" bir mekanizma olduğunu söylüyor.

Peki ya bir site, bir sürü site oluşturup buralardan kendine link verirse ne olur? İşte bir örnek vakanın network diyagramları ile de desteklenmiş analizi bu konuda epey aydınlatıcı olabilir. Söz konusu durum, kendini üst sıralara yerleştirmeye çalışan organizasyona epey pahalı patlamış olsa gerek (onca sitenin domain isimleri için ödenen paralar falan) ancak "demokratik" olarak sunulan bir algoritmanın nasıl kötüye kullanılabileceğine (taciz etmek de diyebilirsiniz ;-) iyi bir örnek.

First Monday: Derinlemesine Web 2.0 Eleştirisi

FZ

Yaklaşık 12 yıldır Internet ile ilgili makaleleri yayınlayan ve hakemli dergi statüsünde bulunan First Monday'in 3 Mart 2008 tarihli güncel sayısının kapak konusu "Critical Perspectives on Web 2.0" (Web 2.0'a Eleştirel Bakış). İçindekiler bölümünde epey kışkırtıcı başlıklar içeren bu sayı, belki tam da bir şeyleri yapmanın hızını ara sıra dahi olsa yavaşlatıp "neyi neden yapıyoruz ve arkasında ne var?" diye sormayı, eleştirmeyi sevenler için: