Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

farukcubukcu.com

BatoR

farukcubukcu.com ; Bence bakılası. Elliye yakın bilgisayar kursunu Internet üzerinden kendi kendinize, kendi hızınızda ve ücretsiz olarak takip edebileceğiniz bir site... Sadece üye olmanız yeterli... Fazla yeni bir haber olmamakla birlikte arayüz ve hizmet değişikliği tanıtımı hakediyor. (Bence)

PayPal gelmiş niye söylemiyorsunuz?

huseyin

Bu haber teknolojiye uzak gözükse de aslında onunla çok içiçe. Yurt dışında yeni çıkan elektronik cihazlara, bilgisayarlara eBay'den imrenerek bakardım.

Nasıl ödeyeceksin? Satan kişi kredi kartı kabul etmiyor. Tek yol PayPal ama o da Türkiye'yi desteklemiyor. Hüzünle kapatıyorsunuz siteyi. Amerikaya giden birisini bul, derdini anlat ki gelirken sana getirsin

PCnet, dünyanın en pahalı internet erişimine karşı

saman

PCnet dergisi Türk Telekom'un fiyat politikasını protesto eden bir kampanya başlatmış, sanal ortamda imza topluyorlar. Amaçları hedef kitlelerine sempatik gözükmek mi bilinmez ama yinede topluluk olup sesimizi duyurmak için iyi bir fırsat. İşte detaylar:

Türkiye'nin bilgisayar ve internet dergisi PCnet, Türk Telekom'un ADSL fiyatlandırma politikasını protesto ediyor. Siz de Türk Telekom'un ADSL fiyatlarını düşürmesi gerektiğine inanıyorsanız protesto girişimimize katılabilirsiniz.

http://www.pcnet.com.tr/adsl

Uyumayın *.com.tr Jenerik Alan Adları Verilmeye Başlandı!!!

BadsectoR

Bilindiği uzere haksız rekabet yaratmaması için ODTU Bilgi İşlem Dairesi tarafından verilmeyen jenerik alan adları bugün itibariyle başvuru yapılabilir hale geldi. Başvuruları 08/04/2003 saat 10:00 ile 08/05/2003 saat 23:59 arasında href=http://generic.nic.tr/list.php>http://generic.nic.tr/http://generic.nic.tr adresinden kabul eden ODTU bu tarihten sonra noter huzurunda çekilişle!, belkide şimdiye kadar yaptığı tek mantıklı iş olan jenerik alan adlarını vermemeyi bırakıyor.

Yıllardır altyapısını online hale getiremeyen, form/faks/telefon üçgeninde tescil işlemi yaparak süreci uzatan, yurtdışında 7-8 $ civarından tescil yapılırken insanlardan 50$(TL'de değil) isteyerek yüzbinlerce doların yurtdışına çıkmasını sağlayan, başvuru formunu baştan aşağı ingilizce yapan, alan adı yenileme zamanı geldiğinde sahibini ne e-posta ne de faksla uyarmayarak alan adını askıya alan, başvurada yapılan kontakları veritanındaki kontaklarla karıştıran...Daha fazla yazmayacağım. Bu uygulama sonrasında oluşacak haksız rekabetten kimlerin canı yanacak merak ediyorum. http://generic.nic.tr/list.php adresinde tüccarların! başvurularını görebilirsiniz.

Internet´in Gelişme Hızına Dair Rakamlar

FZ

Birleşmiş Milletler'in ülkeler arasındaki internet kullanım farkını ortaya koymak için yürüttüğü çalışmanın sonuçlarına göre internet hizmetlerini kullananların sayısı 655 milyonu geçmiş durumda. Gelişmekte olan ülkelerin toplamı bu rakamın üçte birini oluşturuyor. Geçtiğimiz senenin online nüfusunun 500 milyon olduğu hatırlandığında kullanım oranının geçtiğimiz yıla oranla yüzde 30 artış gösterdiği ortaya çıkıyor. Kullanım artışındaki dağılıma bakıldığında Asya yüzde 44'lük bir oranla lider durumda. Afrika yüzde 43, Latin Amerika yüzde 33, Avrupa yüzde 33'lük bir artış göstermiş. Araştırmanın en ilginç sonucu Kuzey Amerika'da internet kullanımının sadece yüzde 10 oranında arttığı. Buna karşılık e-ticaretin üçte biri ABD ve Kanada'da gerçekleşiyor.

Kaynak: Radikal Gazetesi, 2/12/2002