robots.txt wird nicht aktualisiert

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

robots.txt wird nicht aktualisiert

Beitragvon lulabad » So Dez 28, 2008 9:01 am

Ich habe vor 2 Tagen mal meine Website gecrawlt. Dabei ist mir der Crawler in Verzeichnisse gegangen wo er nicht hin soll.
ich habe dann die robots.txt entsprechend angepasst. Heute habe ich dann noch mal gecrawlt, aber yacy lädt die neue robots.txt nicht herunter.
Wann lädt yacy denn die robots.txt neu? Gibts dafür ne Altersbegrenzung?
Eventuell könnte man das laden der robots.txt mit an die recrawl Option anbinden, denn ich habe hier angegeben dass er alles laden soll was älter als 1 tag ist.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: robots.txt wird nicht aktualisiert

Beitragvon papyrus » Mi Apr 01, 2009 7:22 pm

Mir fiel das gleiche Verhalten auf. Nach einigen Versuchen habe ich gelernt, dass YaCy die robots.txt Datei erst nach sieben Tagen erneut herunterlädt. Dies entspricht auch dem gewünschten Verhalten nach "Internet Draft specification" "A Method for Web Robots Control" Kapitel 3.4. Dieses Verhalten kann laut Spezifikation mit "HTTP Cache-Control" des Servers beeinflusst werden. YaCy unterstützt diese freiwillige Auswertung des HTTP Headers leider nicht. Die Informationen aus den robots.txt Dateien werden spätestens beim beenden von YaCy nach DATA/PLASMADB/crawlRobotsTxt.heap geschrieben. Diese kann mit einem Hex-Editor bearbeitet oder entfernt werden um ein erneutes Einlesen zu erzwingen.

Wünschenswert wäre eine Option in YaCy damit die robots.txt der Startdomain früher erneut gelesen wird.

A Method for Web Robots Control: http://www.robotstxt.org/norobots-rfc.txt


yacy_v0.7_20090121_5494.tar.gz

uname -mrspv
Linux 2.6.27.19-170.2.35.fc10.i686 #1 SMP Mon Feb 23 13:21:22 EST 2009 i686 i686

java -version
java version "1.6.0_12"
Java(TM) SE Runtime Environment (build 1.6.0_12-b04)
Java HotSpot(TM) Server VM (build 11.2-b01, mixed mode)
papyrus
 
Beiträge: 4
Registriert: Di Mär 31, 2009 3:48 pm

Re: robots.txt wird nicht aktualisiert

Beitragvon Orbiter » Do Apr 02, 2009 4:11 pm

wäre mir lieb wenn sich da jetzt mal ein anderer dran setzt. Bitte guckt doch alle mal in den Code.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: robots.txt wird nicht aktualisiert

Beitragvon RocketTurtle » Do Apr 02, 2009 4:27 pm

Ok mach ich. Und ja - es sind genau sieben Tage ich änder das jetzt in einen. Ich glaube ehrlich gesagt, das Expires-Date zu speichern ist unnötiger Aufwand. Der ist meiner Erfahrung nach eh oft gar nicht oder nicht sinnvoll konfiguriert.

Problematisch ist zB ein Expires Header der auf 2012 gesetzt ist - auch wenn es der Spezifikation entspricht dann das nächste mal zu Fragen ist es doch ein bisschen Weltfremd.

Das selbe gilt für Expires in 30 Minuten ^^
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: robots.txt wird nicht aktualisiert

Beitragvon RocketTurtle » Fr Apr 03, 2009 9:08 am

Eventuell könnte man das laden der robots.txt mit an die recrawl Option anbinden, denn ich habe hier angegeben dass er alles laden soll was älter als 1 Tag ist.


Wenn man den Crawl auf eine Seite beschränkt zb heise.de - dann macht das sinn. Nehmen wir aber mal an man hat 2 Autorecrawl Apple.de ein Monat und Heise.de 1 Tag und beide nicht beschränkt und mit einer gewissen Tiefe, so das auch andere Hosts gecrawled werden - wann sollen die dann abgefragt werden? Ist das mit dem einen Tag ok - sollen wir das einfach konfigurierbar machen oder fällt jemandem ein wirklich genialer Ansatz ein?

Nochmal zusammen gefasst:
- Expires Header nehmen steht in der RFC ist aber realitätsfremd, da der gar nicht / nicht separat für die robots.txt konfiguriert wird und Webmaster auch sofortige Wirkung erwarten, wenn sie was in die Robots txt schreiben
- Abhängig vom Recrawldatum evtl. nicht ganz sooo simpel - lohnt es den Aufwand überhaupt?
- Eine Woche soll default sein ist aber anscheinend in der Praxis auch zu lang
- Konfigurierbar in den Optionen (Ich tendiere jetzt nachdem ich drüber geschlafen habe hierzu)
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast