Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon Quix0r » Mi Apr 08, 2009 7:45 pm

... kaum abgearbeitet?

Okay, das ganze mal ausfuehrlicher. Ich habe vor einigen Tagen angefangen, ein Linkverzeichnis (buntesuche) zu indizieren, da dort schoene viele weitere Links zum indizieren sind. Nun hat er wohl die meisten eingelesen und in den Queue getan. Jedenfalls ist dieser voll damit.

Aber wieso arbeitet er die so langsam ab? Ich hab DSL 6.000 (~720KB/Sek.), da sollte doch mehr drinne sein? Die Anzahl Crawler- und Indexer-Prozesse habe ich schon kraeftig angehoben, auch den Wort-Cache habe ich vergroessert - daran liegt es wohl weniger, aber okay.

Kann dies daran liegen, dass ich nur ein Prozessor habe und "nur" 2 GB RAM?

Um jegliche Tipps/Hinweise waere ich sehr dankbar.

VG,
Roland

PS: @Orbiter: Du fragtest wo nach einer Blacklist? Meine pflege ich sehr gut. Hab schon viele Tracker (ligatus/etracker/google-analytics/usw.) samt einiger Pornoseiten blockiert. Kannst ja meine mal testen: http://www.quix0r.yacy waere meine Node.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon PCA42 » Mi Apr 08, 2009 9:02 pm

Der Crawler von Yacy ist inzwischen recht schnell. Um daher nicht mit einem Remote-Crawl einen Server zu plätten, ist eine Art Schutz für die gecrawlten Domains vorhanden. Es werden maximal 2 Seiten pro Sekunde und Domain geladen. Die "robots.txt" wird zusätzlich beachtet. Schau mal im Log nach "BALANCER forcing crawl-delay of xxx milliseconds for .....".
Wenn das nicht da wäre könnte ja vielleicht 50 Peers mit 1000 ppm über einen kleinen Web-Server herfallen :twisted: . Und dann wäre Yacy schnell über die robots.txt aus dem Rennen.

Btw.: 340.000 Seiten bei 120 ppm = etwas über 47 Stunden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon Quix0r » Mi Apr 08, 2009 9:06 pm

Okay, dann muss ich Logging wieder einschalten. Hab es aus, wegen dem Plattenplatz. Welche Loggings hast du an?

Auf Arbeit hatte ich so 200+ PPM, das hat mich stutzig gemacht. Und nur auf einer Seite (wer-weiss-was). Kann dann YaCy auch mehrere Seiten gleichzeitig crawlen oder brauche ich dazu mehr CPUs? Ich denke letzteres kann nicht schaden. :) Hab bald einen Quad-Core zusammen. :D
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon PCA42 » Mi Apr 08, 2009 9:20 pm

Das Logging wegen Festplattenplatz auszumachen bringt nichts. Yacy hat per default maximal 20 Dateien zu je 1 MB. Dann wird rotiert. Einfach mal DATA/LOG löschen. Dann sollten wieder die Default-Werte gesetzt werden.

Über den Crawl-Balancer versucht Yacy die Domains zu varieren, um die Timeouts zu umgehen. Den die können teilweise über die robots.txt auch mal in den zweistelligen Sekundenbereich gehen. Die CPU limitert Yacy eher nicht. Da "klemmen" eher mal Seiten beim Laden. Orbiter hat auf seinem Notebook mit Apache-Server drauf auch schon 2000ppm lokal gecrawlt (>Klick<). Und ich denke mal, dass da keine Quad-Core drinsteckt.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon Quix0r » Mi Apr 08, 2009 9:41 pm

Da sind einige Eintraege dabei mit "BALANCER forcing crawl-delay" und teilweise sogar lange Wartezeiten. Okay, wir wollen ja indexieren und nicht DDoS-en... ;) :mrgreen:
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon Quix0r » Mo Jan 25, 2010 9:26 am

Hier ein besserer Thread dazu mit mehr Infos.

Sollte vielleicht mal zusammengefuehrt werden.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Lokaler Crawler hat >340.000 Eintraege im Queue aber wird...

Beitragvon Quix0r » Di Feb 02, 2010 10:21 pm

Mehr RAM, besserer Crawl. Konnte ich hier feststellen, hab nun 2 GB mehr gegeben. Mehr geht leider nicht, hab bereits 4x2GB Module drinne und ein Board mit 6/8 Slots muss ich schauen, ob ich es mir leisten kann. Naja, bis jetzt laeuft er gut, wenn auch zoegerlich.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron