Crawl-Delay?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawl-Delay?

Beitragvon discuss » Di Dez 16, 2008 1:55 pm

Hallo,

mir ist in den Logs folgende Zeile aufgefallen:

BALANCER forcing crawl-delay of 17393 milliseconds for http://www.spiegel.de (caused by robots.txt)


Dieses Limit steht zwar in robots.txt, allerdings nur gültig für Slurp:

User-agent: Slurp
Crawl-delay: 18


Ist das ein Software-Problem in yacy, oder nur "vorauseilender Gehorsam"? ;)
discuss
 
Beiträge: 1
Registriert: Di Dez 16, 2008 1:48 pm

Re: Crawl-Delay?

Beitragvon flori » Do Dez 18, 2008 4:37 pm

Das war ein Fehler in YaCy. Vielen Dank für den Hinweis.

Fix in 5398.

EDIT: Siehe auch viewtopic.php?f=6&t=1586
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Crawl-Delay?

Beitragvon tara » Sa Dez 20, 2008 5:01 pm

Da passt trotzdem irgendetwas nicht. Beim crawlen von http://diegesellschafter.de bekam ich im Log folgendes.

Code: Alles auswählen
2008/12/20 14:17:36 BALANCER forcing crawl-delay of 1818 milliseconds for diegesellschafter.de (caused by robots.txt)


Eine robots.txt gibt es dort jedoch nicht. Also auch kein crawl-delay. Siehe http://diegesellschafter.de/robots.txt
Bei anderen Domains war das teilweise auch so. Kein Ahnung warum.

Mal so nebenbei: Kann man sich das parsen der "robots.txt" in solchen Fällen nicht sowieso sparen? Sprich wenn text/html oder ein 404 für die robots.txt zurückgeliefert wird, muss YaCy das Dokument ja nicht Zeile für Zeile durchgehen. Der Performancebrüller wäre das i.d.R. zwar nicht, auf der anderen Seite muss es ja auch nicht sein.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Crawl-Delay?

Beitragvon flori » Sa Dez 20, 2008 7:50 pm

Wenn's keine robots.txt gibt, wird von YaCy auch nichts geparst.
Bei mir kommt keine Meldung mehr. Keine Ahnung was da nicht stimmt. Aber ich beobachte es mal...
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast