Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Webby Awards...

BatoR

6. webby awards ödülleri açıklandı.
Ticaret, eğitim, moda, film, oyun, sağlık vb... dallarında dereceye girenler ve birinciler...( hmm uygulama alanında google.com )
Aslında koşulları falan tam okumadım ama 7.'si için Fazla Mesai'yi aday gösterelim; eğer dil olayı yoksa şartlarda (language) neden olmasın değil mi ama ?? ! ??
Durun ben bu haberi size gönderdikten sonra şartları iyice bir okuyayım...
Bilahare bildireceğim...

Az ama öz : Opera 7

sleytr

Son bir aydır çıktımı diye iki-üç günde bir kontrol ettiğim Opera 7'nin ilk betasını sonunda indirdim. Şimdilik sadece Windows sürümü)
Bir saatlik bir kullanım sonrasında Opera 7'nin en az umduğum kadar iyi olduğunu söyleyebilirim. Sayfa gösterim motoru tamamiyle baştan yazılan Opera 7 artık bir çok standardı ve standard olmayan bazı özellikleri daha iyi destekliyor. (Changeloguna buradan bakabilirsiniz)
Norveç'li ustalar M2 ile Opera'nın sörf konusundaki hız ve performansını e-posta ve haber gruplarına erişim alanınada taşımışlar. Son olarak Opera'nın eklenen ve geliştirilen onca özelliğine rağmen hafifliğinden ve hızından hiçbir şey kaybetmediğini de belirttikten sonra sizi hemen bu 3.1mb'lık az ama öz browserın deneme sürüşüyle baş başa bırakıyorum...

Yaşasın e-Devlet ve onun Tekelci Temsilcileri...

elrond

Bu haberin asılsız olduğu deneme ile sabitlendi. Kaynağını tespit etmeden ve denemeden böyle bir haber yayınladığımız için herkesden özür dileriz. Yorumların değerli ve bilgilendirici olduğun düşündüğümüzden dolayı haberi tamamen kaldırmıyoruz.Sundance

O’Reilly Web 2.0 lafını tescillemiş!

meddah

Web 2.0 hakkında konuşma düzenleyen bir şirkete O'Reilly'nin New York'daki avukatları tarafından bir tehdit mektubu gönderildi. Amaçları kendi izinleri olmadan Web 2.0 ismi altında hiçbir organizasyon yapılmamasi. Organizasyon da çok büyük değil! Katılım en fazla 100 kişi oluyor. Yani uluslararası bir organizasyondan bahsetmiyoruz.

Gönderilen mektubu bu adresten görebilirsiniz

Slashdot CSS Tasarım Yarışması Sonuçlandı

bio

Geçen ay duyurulan Slashdot CSS tasarım yarışması sonuçlandı. Kazanan tasarım yine koyu yeşil tonlarda, eski tasarımı aratmayacak betlikte. Tasarımcı Alex Bendiken ödül olarak bir laptop, ikinci gelen tasarımın sahibi Peter Lada da ThinkGeek'ten 250$'lık hediye çeki kazandı.