Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Amerika`da merak ettiklerinizden haber alın!

larweda

New-York, Washington veya Pittsburgh'da haber alamadığınız ve merak ettiğiniz yakınlarınız varsa onları internet üzerinden araştırabilirsiniz. Bu tarz hizmet veren sitelerden bir tanesi "I'm Okay" Message Center, yani okay.prodigy.net. Kazalardan sağlam çıkan insanların isimlerini bildirdikleri ilan panosu tarzı bir yer burası. Ne kadar çok insan bunu kullanır, o şoktan çıktıktan sonra buraya ismini gönderir bilmiyorum ama, merak ettikleriniz varsa mutlaka her yol denemeye değer.

Miranda Icq için ilk skin plugini çıktı

robin

Bir çoğunuzun severek kullandığına emin olduğum küçük ve hızlı, $ahsen "cep herkülü client ;)" diye de tabir ettiğim open source icq clienti Miranda Icq için ilk skin plugini "Lizard" çıktı. Beraberinde örnek bir skinle gelen plugin Miranda'yı daha da güzel gösterecek, hem de malum diğer client gibi kaynaklarınızı yiyip bitirmeden. :)
Plugin $u adresten çekilebilir:
http://sweb.cz/steelspace/files/Lizard.zip

Temporary Inbox ile Spamlardan Uzak Durun

DemensMagnet

E-Posta adresiniz 1 defa spamcıların eline düşmeye görsün, o e-posta adresinden pek fazla hayır gelmemektedir. Her ne kadar e-posta sunucuları yeni spam filtreleri geliştirseler de spamcılar boş durmayıp bu flitreleri atlatabilmek için ellerinden geleni yapıyor ve bu filtreleri atlatıyorlar.

En güzel spam koruması e-posta adresinizi spamcılardan uzak tutmaktır. İşte bu noktada Temporary Inbox oldukça yararlı bir servis sunuyor kullanıcılara.

Ya Danimarka ya da Güney Kore

FZ

İskandinav ülkeleri bilgi teknolojileri kullanımındaki liderliğini hâlâ koruyor. EIU tarafından düzenli olarak yapılan bilişime hazır olma endeksine göre İsveç, Norveç ve Danimarka önceki senelerde olduğu gibi yine ilk 10'a girmeyi başardı. Genişband (broadband) internet erişimi, cep telefonu kullanım oranı, kamuya açık kablosuz internet erişim nokta sayısı gibi bir dizi veri sonucu elde edilen sıralamada bu seneki en büyük çıkışı ABD, İsviçre ve Slovakya aldı. Genişband erişim açısından Güney Kore hâlâ dünyanın en gelişmiş ülkesi. Geçen sene 45. sırada yer alan Türkiye'nin 2005 sıralamasıysa 43. sıraya yükseldi.

Daha hızlı ''download''

cbc

"California Institute of Technology", mevcut TCP protokolünü biraz değiştirip, normal paketlerin 266 mbiti aşmadığı yerlerde 925 mbite ulaşmayı başarmışlar. Okuduğum kadarı ile basite indirgeyecek olursam TCP protokolünün hata bulma ve düzeltme kısmı ile oynamışlar.

Yüzeysel bir yazı için buraya, detaylı bilgi için buraya tıklayabilirsiniz.