Entfernen von Crawler-Profil-Eintraegen benoetigt viel IO?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Entfernen von Crawler-Profil-Eintraegen benoetigt viel IO?

Beitragvon Quix0r » Mo Feb 01, 2010 8:13 pm

Ich habe das hier mal laenger beobachtet:
Zuerst habe ich zirka 20 Crawler-Profile erstellt, nach einem Tag habe ich dann die Haelfte geloescht. Nun beginnt ja der Balancer, solch geloeschten Eintraege aufzuraeumen:
W 2010/02/01 20:08:49 Balancer no profile entry for handle O0tOmQmIchzA
W 2010/02/01 20:08:49 Balancer no profile entry for handle YgbApQ9nu86Y
W 2010/02/01 20:08:49 Balancer no profile entry for handle YgbApQ9nu86Y
W 2010/02/01 20:08:49 Balancer no profile entry for handle YgbApQ9nu86Y

Was ja auch richtig ist, da das Crawler-Profil geloescht ist. Was mir aber auffaellt ist, dass dabei die Festplatte sehr aktiv wird und das Crawlen/Indexieren sehr nachlaesst.

Kann hier nicht ein Zwischenspeicher oder "Entfernungsqueue eingerichtet werden, der gefuellt wird, welche Intraege geloescht werden muessen und diese dann per Thread abgearbeitet werden, als dass sie sofort entfernt werden? Dann koennte man je nach Festplattenstaerke (-schnelligkeit, -Typ und Cachegroesse) das Entfernen langsamer bzw. schneller machen.

Oder geht das generell nicht? Teilweise bremst das die Node so stark aus, dass Proxy und Interface lahm werden oder sogar die Node fuer andere nicht erreichbar ist.

Oder kann ein Cleaner implementiert werden, aehnlich wie der DB-Bereiniger, so dass er hier einfach startbar/stopbar/pausierbar ist?

Edit: Jetzt ist er so stark beschaeftigt, dass die AJAX-Requests nicht mehr reagieren. Gleiches Verhalten wie hier: viewtopic.php?f=6&t=2637&hilit=
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Entfernen von Crawler-Profil-Eintraegen benoetigt viel IO?

Beitragvon Orbiter » Di Feb 02, 2010 12:08 am

wenn du deinen peer so beschäftigst, ists kein wunder wenn er so beschäftigt ist.
oder etwas ernster:
das Löschen eines Crawl Profils hat zur Folge dass der gesamte crawl stack durchgegangen wird um entsprechende URLs zu diesem Auftrag zu entfernen.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Entfernen von Crawler-Profil-Eintraegen benoetigt viel IO?

Beitragvon Quix0r » Di Feb 02, 2010 9:53 am

Das ist ja verstaendlich. :) Aber kann das etwas passiver gemacht werden, dass er noch weiter erreichbar ist?
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron