5 billionen urls

Ereignisse, Vorschläge und Aktionen

5 billionen urls

Beitragvon ribbon » Mi Jan 09, 2013 6:45 pm

hat jemand diese 5 billionen urls schonmal herunter geladen?
https://github.com/trivio/common_crawl_index
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: 5 billionen urls

Beitragvon Vega » Mi Jan 09, 2013 11:01 pm

Nein, da es in YaCy aktuell keine Möglichkeit gibt diese Daten zu Importieren/Auszuwerten..... Die Datenmenge ist auch enorm, allein Blekko hat 2012 81 Terrabyte an Daten gespendet http://www.heise.de/newsticker/meldung/Blekko-schenkt-Crawler-Daten-der-Common-Crawl-Stiftung-1771423.html. Der Umgang mit diesen Daten ist also alles andere als trivial, kleinere Exporte haben so 100 MegaByte Umfang....http://www.golem.de/1111/87593.html.
Interessant sind diese Daten schon, aber als erstes müsste also eine entsprechende Importschnittstelle geschaffen werden - und dann müsste YaCy möglichst Cluster-fahig werden, dann nur in einem Cluster kann man solche Datenmengen schnell und Performant handhaben. Dank Apache Solr kann man da aber einigen Spaß machen :-).

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 2 Gäste

cron