Heritrix - Externer Crawler für YaCy?

Forum for developers

Heritrix - Externer Crawler für YaCy?

Beitragvon Orbiter » Mi Jun 03, 2009 10:45 am

Beim Thema 'Crawler-Erneuerung' wäre ich offen für ganze neue Wege, wie beispielsweise der Nutzung von Crawler-Packages. Da bin ich auf Heritrix gestossen:
http://crawler.archive.org/
Das 9 MB große Package schrumpft auf 1.3 MB zusammen, wenn man die Doku und servlets und alles weg läßt, bis auf die Library in org.archive.crawler, die ich im Source mit rein nehmen würde.

Ich habe die Doku noch nicht durch, aber man offenbar Crawl Dumps erzeugen, und diese dann auch ggf. recyclen. Meine Idee dabei wäre, einfach Dumps als Surrogat lesen zu können oder einen Dump -> Surrogat als Parserinstanz dazwischen zu schieben.

Hab das auch noch nicht ausprobiert, könnt ihr mal versuchen?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste