Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Teröristlerin yanında Özgürlükler de yanar!

sundance

Free Software hareketi`nin önde gelen elemanlarından Stallman Slashdot`da yayınlanan yazısında önemli bir noktaya dikkati çekiyor.

Güvenliğin sağlanmasının, terör suçlularının yakalanmasının kesinlikle çok önemli olduğunu, fakat bu yapılırken, milyonlarca insanın izinsizce dinlenmesinin, kayıtlarının tutulmasının ve fişlenmelerinin uzun vadede asıl suç kadar zarar verici olduğunun altını çiziyor. Yakın zamana kadar Echelon ve Carnivore gibi sabıkaları olan Amerikan Hükümeti`nin kurunun yanında yaşı da yakacağı kesin gibi...

Ekonomik olarak en güçlü 100 ülke/şirket

sundance

2000'de yayınlanan bu rapora göre Dünya'nın en büyük 100 ekonomik gücünün 51'i çok uluslu şirketler.

Her ne kadar raporun yeni halini bulamamış olsak da, bizim için ilginç olanı 22 ve 23 numaralar. Kırmızı çizgi bizden başlıyor.

Cypherpunk Revolutionary: Assange

sundance

Wikileaks ve kurucusu Assange hakkında birçok makale yazıldı, bir çok yorum yapıldı.

Bunların belki de en iyisi çok kısa bir süre önce "The Monthly" dergisinde yayınlandı.

Çok kısa bir süre içinde gösterilen ilginin yoğunluğu yüzünden derginin sitesi yükü kaldıramadı Facebook'tan destek aldı; Bölüm 1 Bölüm 2 Bölüm 3

Oldukça uzun olan makale malesef İngilizce, Türkçe'ye çeviren olursa (tabi ki The Monthly'nin de iznini almak şartıyla) Fazlamesai'de de yayınlamak isteriz.

Searchlores.org

sundance

Bundan yedi yıl kadar önce, Galata´da bir öğrenci evinde Fravia´nın Searchlores.org sitesi ile karşılaşmıştım. Kendine özgü yapısı, başta arama motorları olmak üzere bir çok konuda ilgi çekici teknik makaleleri, derin kütüphanesi, usta çırak ilişkisinde sınıfları ve vaka incelemeleri ile çok değişik bir siteydi. Internet´in kişisel özgürlüklere karşı kullanılmasına sinirlenen Fravia daha o zamanlarda kullandığı exploitler ile Explorer ile siteye girerseniz makinanızı çakılıyordu (Opera ile bu sayfalarda tanıştım ilk ;)

Yıllar sonra Netcat hakkında bir şeyler ararken bu sayfaya rastladım. Sanki eski bir dostu görmüş gibiydim. Bu süre içinde Fravia çizgisini korumuş, dahası yeni yazı ve makaleler ekleyerek sayfalarını zenginleştirmişti. Tavsiye ederim bir dolaşın sitede eminim ilginizi çekecek ya da sizi çok şaşırtacak bir şeyler bulacaksınız.

Skype Sunucuları ve Ruslar?

ErenTurkay

2 gündür güvenlik ile ilgili e-posta listelerinde skype sunucularının bir güvenlik açığından faydalanılarak işlev göremez hale getirildiğinden bahsediliyor, tabiki Rus Hacker hikayesi ile beraber :)