Große Crawl Queues Aufteilen

Ideen und Vorschläge sind willkommen.

Große Crawl Queues Aufteilen

Beitragvon Lotus » Mo Jun 14, 2010 4:40 pm

Die Idee habe ich hier bekommen:
viewtopic.php?f=5&t=2870

Ich weiß nicht, wie es momentan läuft, und wie viel Performance große Listen schlucken. Zumindest könnte man ja Listen als Datei auslagern, wobei man sich nur merkt wie viele Links dort drin sind. Wenn dann die aktuelle Liste (nahezu) leer ist, wird die nächste in den Speicher geladen.

Beispiel:
Aktuelle Liste im Speicher: wird gecrawlt
"Schattenliste" im Speicher: da kommen die neuen Links rein (denkbar: oberes und unteres Limit in Abhängigkeit von aktueller Liste)
Schattenliste voll: auf Festplatte speichern

Realisierbarkeit:
?
Doublecheck?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Große Crawl Queues Aufteilen

Beitragvon Quix0r » Di Jun 15, 2010 8:34 pm

Wuerde ich mit meinen 4-5 GB (!) Stacks (>11.000.000 bzw. 14.000.000 URLs) sehr befuehrworten. Ich hatte deutliche Performanceverluste, als ich (ohne mein Patch) von P2P- auf Robinson-Mode wechselte und dann in 10-er Bloecken die URLs vom Global/Limit-Crawler in den Local transferiert worden sind.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Große Crawl Queues Aufteilen

Beitragvon Orbiter » Mi Jun 16, 2010 7:56 am

'schattenlisten' erzeugen mehr IO, denn die aktuelle Listenverwaltung hält URLs in einem Schreib-Puffer und kann auch daraus lesen ohne dass überhaupt IO statt findet. Ich hab den Crawler erst vor zwei Wochen überarbeitet und rundum auf sinnvolle Architektur geprüft. Ich sehe hier keinen Sinn in einer Aufteilung der Liste in mehrere, das würde erst recht einen Overhead erzeugen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron