Crawl beenden

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawl beenden

Beitragvon datengrab » Sa Nov 10, 2007 2:00 pm

ich habe ein paar Crawls auf meinem Peer laufen und einen wollte ich löschen, da er sich in unerwünschte Regionen verrant hat. Also habe ich ihn im Crawl Profil Editor erst terminiert und danach gelöscht. Die Terminierung hat schonmal rund 18 Stunden gedauert. Nach dem löschen war der Crawl im Crawl Profil Editor verschwunden, aber auf der Statutsseite war der Lokale Crawlpuffer weiterhin gefüllt. Dieser wird jetzt mit rund 110 Seiten / Minute geleert und im Log erscheint: ... LOCALCRAWL[2869259, 815174, 0, 0]: LOST PROFILE HANDLE 'ENVvGPveVtIB' for URL ...

Wenn das in der Geschwindigkeit weiter geht, ist mein Peer damit die nächsten 18 Tage beschäftigt - drei Tage ist er bereits am rödeln. Kann man das irgenwie beschleunigen? Der Rechner ist von der System- und IO-Last nicht ausgelastet.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Crawl beenden

Beitragvon Orbiter » So Nov 11, 2007 2:02 am

das Beenden eines Crawls über das Löschen eines Profils ist nicht komplett ausgebaut. Hier kommt es einfach nur dazu, das wenn eine URL aus der Queue gezogen wird, diese dann einfach nicht weiterverarbeitet werden kann, und damit wegfällt. Dies geschieht aber einfach über die Mechanismen, die halt da sind, inclusive Crawl Balancer und Target Load Balancing. Das bedeutet das im schlechten Fall 1/2 Sekunde Zwangspause zwischen jeder URL ist. Daher taugt das Löschen des Profils eigentlich nicht viel dazu, einen Crawl zu beenden. Dazu müsste man explizite Iteratoren in den Queues bauen. Wäre notwendig sowas zu bauen, kommt oben auf den Stapel mit gewünschten Features. Wäre gut wenns hier einen Freiwilligen gäbe.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawl beenden

Beitragvon datengrab » So Nov 11, 2007 11:04 am

Ich habe es jetzt mit der Holzhammermethode gemacht und einfach die komplette Crawl-Warteschlange gelöscht.

Vorher versuchte ich noch den Crawl zu beschneiden indem ich die Indexiertiefen 10-30 lösche. Dies habe ich auch so als Wertebereich auf "Lokaler Crawl-Puffer" eingegeben und "Tiefe" als Kritterium gewählt. Das hat yacy dann auch ein paar Stunden beschäftigt, aber keine einzige URL gelöscht. Anscheinend werden Wertebereiche dort nicht verarbeitet. Sollte abgefangen werden, oder?
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 6 Gäste