Common Crawl

Forum for developers

Common Crawl

Beitragvon LA_FORGE » Do Jan 05, 2012 12:52 pm

Können wir den YaCy-Crawler nicht an der Stelle irgendwo "anflanschen"?

Dann würden die

Code: Alles auswählen
I 2012/01/05 13:13:12 BALANCER forcing crawl-delay of 9998 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 2, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:13:22 BALANCER forcing crawl-delay of 9997 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 3, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:13:36 BALANCER forcing crawl-delay of 5996 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 4004, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:13:42 BALANCER forcing crawl-delay of 9998 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 2, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:13:52 BALANCER forcing crawl-delay of 9998 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 2, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:14:02 BALANCER forcing crawl-delay of 9998 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 2, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:14:12 BALANCER forcing crawl-delay of 9998 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 3, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/05 13:14:22 BALANCER forcing crawl-delay of 9892 milliseconds for www.archive.org: minimumDelta = 0, timeSinceLastAccess = 108, flux = 0, robots.delay = 10000, host.average = 945, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1


langen Wartezeiten wegfallen und wir hätten innerhalb weniger Wochen eine exponentiell steigende Größe des Freewold-Index :-)
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Common Crawl

Beitragvon Orbiter » Do Jan 05, 2012 1:52 pm

ich persönlich halte von Common Crawl gar nichts weil es eine typische 'wir produzieren ein Problem um ein Problem zu lösen das wir nicht haben'-Projekt ist.
Im Detail:
- das Problem das wir nicht haben ist das Crawlen: können wir, auch verteilt. Wobei das verteilte Crawlen ein gimmick ist und eigentlich nicht so notwendig, denn das eigentliche Problem ist das Indexieren und das Verteilen des Index.
- und hier wird das Problem produziert: gigantische Datenmengen anhäufen ohne auch nur im Detail darüber nachzudenken wie es indexierbar ist. Common Crawl löst kein Problem und schafft keine Werte.

Mal abgesehen davon ist die Herangehensweise, einen riesigen Datenpool ohne menschliche Auswahl anzusteuern nicht so toll: wir sind ein Mitmachprojekt wo die Helfer die Inhalte bestimmen. Es ist ein Experiment ob die User einen guten Index zusammenbauen können indem sie ihre Crawler auf interessantes hin steuern.

Wer aber trotzdem ein Gateway zu Common Crawl bauen möchte darf das sicher gerne, denn auch das gehört zu der 'menschlichen Steuerung': wer so ein Interface baut muss sich automatisch Gedanken machen was er von Common Crawl importieren will.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Common Crawl

Beitragvon LA_FORGE » Do Jan 05, 2012 3:14 pm

Hallo Michael,

ja, da hast du Recht. Unter diesem Aspekt habe ich es überhaupt noch nicht gesehen.

Bei einer Datenmenge von 30 TB ist es natürlich sehr kompliziert, nach dem Indexieren auch qualitativ brauchbare Suchergebnisse zu bekommen. Da rückt dann eher die Prämisse 'Desinformiert in der Informationsflut' in den Vordergrund :-)

Außerdem kann man bei so einem Angebot nie wissen, ob der Datenbestand wirklich aus einer neutralen Quelle stammt oder ob er durch Dritte manipuliert wurde.

Ich fände es toll, wenn wir In die Richtung etwas weitermachen könnten und programmiertechnische Sonderwünsche, so wie ich sie des öfteren habe :-), höher priorisiert werden, wenn der "Kunde" dafür zahlt.

Viele Grüße

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm


Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron