Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Napster Protest Müziğin Kalesi Olmuş :))

sundance

Napster bütün ünlü şarkıcıları filtreleyince, protest müzik meraklılarına gün doğdu :))

Kırk yılın başı Napster`dan Supertramp indireyim dedim, baktım yok. Super diye arattım o da yok, ayılık edip Jackson dedim o da yok, `Ulan Tarkan`da mı olmaz ?` dedim inanır mısınız o da yoktu... Hadi bir `Selda` yazayım dedim, maşallah diskografisi geldi mübarek, keza Ahmet Kaya, keza Livaneli...

Çok garip dinamiklerin dünyasındayız vesselam

Ağa Düşen Piyano

FZ

Kanada´daki bazı kuruluşlar, yüksek hızlı bilgisayar ağlarıyla birbirlerine bağladıkları piyanoları kullanarak hem müzik eğitimini kolaylaştırıyor hem de bilinen müzik eğitimini değiştiriyorlar.

CANARIE (Canada´s Advanced Internet Organization) adlı kuruluş ve ona katkı veren Acadia Üniversitesi, Krallık Müzik Konservatuarı (RCM) ve Yamaha Kanada Müzik tarafından oluşturulan 365,000 Kanada dolarlık fonun kullanılacağı bu projenin adı MusicPath (http://musicpath.acadiau.ca). Proje, CANARIE´nin geliştirdiği CA*net4 adlı Kanada´nın yüksek hızlı ulusal araştırma ağı aracılığıyla sayısal akustik piyanoların birbiriyle bağlanmasını kapsıyor. CANARIE´den Martin Sampson´a göre MusicPath projesiyle müzik öğrencileri ve öğretmenler birbirleriyle gerçek zamanlı olarak iletişebilecekler. Örneğin bir öğrenci A şehrindeki sözü edilen piyanolardan birinin bir tuşuna bastığında, B şehrindeki eğitmenin önündeki piyano da aynı sesi çıkaracak. Videokonferans sistemiyle desteklenecek olan bu çalışma, öğreten ve öğrenci arasındaki coğrafi farkı da ortadan kaldıracak.

Haberin devam Türkiye Bilişim Derneği Dergisi´nde.

Ben Size Altın Örümcek Alamazsınız Demedim!

parsifal

İstanbul Büyük Şehir Belediyesi Altın Örümcek 2005 Kamu Kurumu ödülünü kazanmış.

Heralde sonradan bir rehavet çökmüş ki, Kültür kısmında bulunan "CRR Konser Salonu" linki bizi önce http://www.crrks.org adresine, ordan da buraya yönlendiriyor.

Ve CRR Hakkında kısmına girince ağzımız bir karış açık kalıyor.

Burda tartışmamız gereken konu örümceğin hangi şartlarda verildiği mi yoksa bu büyüklükteki bir belediyenin web sayfasının içler acısı hale nasıl geldiği mi?

ADSL'yi Uçurma Planı

punky

Hızlı internet erişimi için yatırımlarına devam eden Türk Telekom, yeni projesiyle 2007'de ADSL'yi 2 Mbit hızdan 20 Mbit'e taşıyacak. Bunun için mevcut bakır hatlara paralel olarak fiberoptik kablolar kullanılacak.

Google´in yeni oyuncakları

conan

Google'in üç yeni oyuncağını gördüm bügün slashdot'da.

Birincisi Google Viewer: Bu oyuncak aradığınız kritere uygun düşen web sayfalarını bir bir, alttaki frame içerisinde gosteriyor. Bir sure bekleyip, aramaya uyan bir sonraki linke geciyor. Oldukça beğendiğimi soylemeliyim :)