robots.txt: Bug oder Feature?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

robots.txt: Bug oder Feature?

Beitragvon Low012 » Do Mai 05, 2011 11:33 am

Mein Peer weigert sich aufgrund von http://www.globalsecurity.org/robots.txt, http://www.globalsecurity.org/ zu crawlen. Die Datei hat den folgenden Inhalt:
Code: Alles auswählen
User-agent: *
Disallow: /phpadsnew/
Disallow: /cgi-bin/texis.cgi/webinator/search/
Allow: /

Soweit ich weiß, gibt es in robots.txt kein "Allow" und hier wäre es auch noch völlig sinnlos, weil es ja die zuvor aufgestellten Verbote aushebeln würde. Sollte die letzte Zeile nicht ignoriert werden und dann alles gecrawlt werden, was nicht in der zweiten und dritten Zeile verboten ist? Oder geht YaCy hier auf Nummer sicher und crawlt bei fehlerhafter robots.txt nicht?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste