Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Eğitim Tasarımcısı Ne İş Yapar?

FZ

"Eğitim tasarımcısı (Instructional Designer) ülkemizde yeni yeni kullanılan, oysa yurtdışında uzun zamandır bilinen bir uzman türü. Öyle ki hayatını bir eğitim tasarımcısı olarak sürdüren Reuben Tozman, e-Magazine dergisinde yayınlanan “Yeni Nesil Eğitim Tasarımcıları” isimli bir makale kaleme almış. Ülkemizde daha tam olarak ne işle iştigal ettikleri bilinmezken, bazı coğrafyalarda eski tipte eğitim tasarımından vazgeçilmesi gerektiğine dair bir makele görünce, derhal bu makaleyi okuyup paylaşmak kaçınılmaz oldu.

Küçük Dünya Projesi

FZ

Bir insanın dünyadaki herhangi bir başka insanla iletişim kurması için kaç insanla temas etmesi gerekir? 100? 200? 6? Vakti zamanında sosyolog Milgram'ın mektup ile gerçekleştirdiği deneyden sonra bu konu ile ilgili empirik bir çalışma yapılmamıştı. Ta ki Small World Project isimli deneye kadar.

İsterseniz siz de bu deneye kolayca katılabilirsiniz. Tek yapmanız gereken Columbia Üniversitesinin Sosyoloji Bölümündeki ilgili siteye gidip kaydolmak. Hemen ardından adamlar size bir kişi ile ilgili bilgileri gönderiyorlar (mesela bana Norveç'li bir veteriner çıktı :) ve o kişiye ulaşmak için size yardımcı olacak bir arkadaşınıza bir e-mail göndermenizi istiyorlar sitenin ilgili web formu üzerinden (mesela Norveç'te bir tanıdığınız, ya da Norveç'te bir arkadaşı olan bir tanıdığınız olabilir).

İstanbul Şehir Rehberi

okanbatur

İBB, İstanbul Şehir Rehberi sitesini kullanarak, web tarayıcınız ile sokakları ve caddeleri Google Maps'deki gibi goruntuleyip gezebilirsiniz. Arama yapabilirsiniz.

Wap uzerinden web´de gezmek

tongucyumruk

Yakın zamana kadar FazlaMesai'yi wap üzerinden okumak için FazlaMesai'ye wap desteği gelmesi veya TurkCell'in SurfCell adlı garabetiyle boğuşmak zorunda olduğumu düşünüyordum... Yanılmışım... Çok sevgili arama motorumuz google beni bir kez daha şaşırttı.
Alıyorsunuz wap destekli telefonu, giriyorsunuz http://wap.google.com'a ve webin tamamında arama yapabiliyorsunuz. İşin güzel yanı arama sonuçları web siteleri olsa bile google bunları sizin için wml formatına çeviriyor güzel güzel browse ediyorsunuz dahası arama ile ulaştığınız siteden başka sitelere link varsa o linkleri de google sizin için wml formatına çeviriyor.
Ne diyelim... İlahi google sen herşeyi düşünürsün...

Google´da Nasıl Tepeye Oturursunuz

FZ

Efsanevi arama sitesi Google bilindiği üzere PageRank(tm) diye bir teknoloji kullanıyor ve "A sayfası B sayfasına linkli ise A, B'ye oy vermiştir dolayısı ile B'nin arandığında tepede çıkma şansı artmıştır" şeklinde özetlenebilecek bir mantaliteye göre işliyor. Google firması bunun "demokratik" bir mekanizma olduğunu söylüyor.

Peki ya bir site, bir sürü site oluşturup buralardan kendine link verirse ne olur? İşte bir örnek vakanın network diyagramları ile de desteklenmiş analizi bu konuda epey aydınlatıcı olabilir. Söz konusu durum, kendini üst sıralara yerleştirmeye çalışan organizasyona epey pahalı patlamış olsa gerek (onca sitenin domain isimleri için ödenen paralar falan) ancak "demokratik" olarak sunulan bir algoritmanın nasıl kötüye kullanılabileceğine (taciz etmek de diyebilirsiniz ;-) iyi bir örnek.