Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Ripe 52 Toplantısı İstanbul'da

sundance

Internet politikaları konusunda belki de en önemli organizasyonlardan biri olan RIPE'ın bir sonraki toplantısı 24-28 Nisan tarihleri arasında İstanbul'da yer alacak.

Toplantılara $400 avroluk tüm etkinlik ya da 125 avroluk günlük katılım ücretleri ödeyerek isteyen herkes katılabiliyor, öğrenciler için de %50 indirim sözkonusu. Türk Telekom'un ev sahipliğinde yapılan toplantılar, daha sonra "şerrefsizim benim aklıma gelmişti" dememek isteyenler için iyi bir fırsat olabilir ;)

Internet`in 20. doğum günü geliyor

anonim

1 Ocak 2003 Internet'in 20. doğum günü... 1 Ocak 1983'de ARPANET ağı NCP'den TCP/IP'ye resmen geçirilmişti. Bu tarih birçok kişi ve kuruluş tarafından Internet'in doğduğu gün olarak kabul edilmektedir. Bundan 6 ay sonra da ARPANET, ARPANET ve MILNET olarak ikiye ayrılmış ve ilk TCP/IP yönlendirici ile birbirlerine bağlanmıştı.

Dosyalar, kaynak kodları yetmez... İşlem gücümüzüde paylaşalım

tongucyumruk

Bu fikir daha önce başkasının aklına geldi mi veya uygulanıyormu bilmiyorum ama dün aklımda belirdi ve bana oldukça çekici geldi doğrusu. Tabii az sonra anlatacaklarımı yapmaya benim teknik bilgim yetmeyeceğinden FM ile de paylaşmak istedim.

İnternetin ortaya çıkışından beri insanlar sürekli birşeyleri paylaşma eğilimi içindeydiler. Önceleri bu sadece düz metinden oluşan bilgiydi (kaynak kodu, şarkı sözü, bilimsel araştırma sonuçları vs). Daha sonra sıkıştırma algoritmaları gelişip bant genişlikleri arttıkça insanlar önce resimleri daha sonraları ise önce müziği ve videolarını paylaşmaya başladılar. Ve bence şimdi bunu sadece veri paylaşımının ötesine geçirmenin vakti geldi...

Yanlış adamı tutukladınız

onu2

En büyük 'BitTorrent tracker' "The Pirate Bay" ile ilgili davanın (1, 2, 3, 4) yeni bir etkisi daha: filesharer.org

"It is us, the millions who use their site. They've got the wrong people."

Şu ana kadar harekete katılan 803 kişi bulunuyor.

Belki sizde bir suçlusunuz?

Madonna´nın Web Sayfası Neden Hacklendi?

anonim

Internet'i kontrol edebileceğini düşünenler geçen hafta güzel bir ders aldı.

Her şey Madonna'nın sesini popüler bir anti-korsanlık tekniğinde kullanması ile başladı. Warner Music Group Madonna'nın yeni şarkıları gibi görünen dosyaları p2p dosya paylaşım ağlarına koydu. Dosyaları indirenler şarkının ilk 10 saniyesinden sonra şarkıcının "What the f**k do you think you're doing" diye küfür edişi ile karşılaştı.