Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Yeni Bir Harita Sitesi

FZ

Bilgiye benzersiz ve rakipsiz erişim alternatifleri sunan internetin gözde konu başlıklarından biri de haritalar. Google ve Microsoft başta olmak üzere birçok hizmet sağlayıcı web sitelerine eklediği uydu destekli haritalarla dünyanın neredeyse her köşesini birkaç tıklama uzağımıza kadar taşıdı. Ancak ABD dışındaki hemen hiçbir ülkede bu haritalar yerel bilgilerle donanmış değil.

İki Nokta ve Orsa adlı iki Türk bilişim şirketinin ortaklığıyla geliştirilen haritasitesi.com bu boşluğu doldurmayı başarıyor. Türkiye'yi sokak sokak, şehirden köylere kadar kapsayan hizmet benzer hizmetlerle hemen hemen aynı arayüze sahip. Dilediğiniz yeri sokak ismi girerek 'Haritada Bul' başlığı altında arayabildiğiniz gibi 'Nokta Bul' başlığında Türkiye genelinde ya da odaklandığınız noktadaki belediye binası, itfaiye amirliği, vergi dairesi, hastane, pastane gibi özel ilgi alanlarını da bulabiliyorsunuz.

Kaynak: Radikal

İstenmeyen E-Mail´larınıza Dava Açın

anonim

Haber kaynağı internethaber.com, makale ise şu şekilde: "New York Başsavcısı Eliot Spitzer, bilgisayar kullanıcılarına istemedikleri halde 500 milyon e-mail göndererek reklam yapmakla suçladığı bir şirket aleyhine dava açtı. "MonsterHut.com" adlı site Mart 2001'den itibaren kullanıcılara istemedikleri reklam e-mail'leri göndermekle suçlanıyor. "

Kısacası bundan sonra spam mail atanlar çok dikkatli olmalı, her an kapılarına bir polis dayanabilir. Aslında işin en komik tarafı ne biliyor musunuz, tam anlamıyla spam'in bir sınırı yok, belkide fazlamesai.net beni şu an onlara spam bir mail gonderdim diye şikayette bulunacak ;)

.tr Paylaşılamıyor

mrtksn

15 yıldır ODTÜ'den dağıtılan .tr uzantılı alan adlarının tescil hakkını Telekomünikasyon Kurumu devralmak istiyormuş.

Gerekçe olarak ise internet servis sağlayıcılarıyla ilgili yetkilendirmeler, denetlemeler ve numara tahsisiyle ilgili işlemlerin Kurum tarafından yapıldığını, internet alan adları konusunun da kıt kaynaklardan bir tanesi olduğunu, dolayısıyla bu konudaki yetkilendirmenin Telekomünikasyon Kurumu tarafından yapılması gerektiği gösterilmiş. Ancak asıl mesele 1 milyon doları geçen yıllık kar gibi görünüyor.

Haberin tamamını buradan okuyabilirsiniz.

İnteraktif pembe dizi!

larweda

Geçmiş yılların en başarılı komedi-dram filmlerinden biri olan Full Monty`nin yazarı Simon Beaufoy www.handbag.com bünyesinde dünyanın ilk interaktif e-mail dramasını başlatıyor. Bunun anlamı, insanlar olayın mailing listesine üye oluyorlar, ve hergün konunun gelişimi ve dizideki insanların ilişkileri hakkında e-mail üzerinde tartışıp konunun gidişatına karar veriyorlar. Bu sekiz hafta boyunca böyle sürecek ve sonunda tüm senaryosuna izleyicilerin karar vermiş olduğu bir dizi ortaya çıkmış olacak. Detaylı bilgi için: www.handbag.com/arts/emailsoap/

Fransa'da Sansür: 39 Usenet grubu engellendi!

sundance

Zeropaid'in haberine göre, Fransa'nın en büyük ISP'lerinden Free, tebliğ edilen bir mahkeme kararının ardından 39 Usenet haber grubuna erişimi altı aylığına engelledi.

Daha önce de Eylül ayında 14 haber grubuna erişim engelelenmişti.