YaCy wertet robots.txt falsch aus

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

YaCy wertet robots.txt falsch aus

Beitragvon papyrus » Mi Apr 01, 2009 2:30 pm

Auf der YaCy Seite "Crawl Start" wird abhängig von der eingetragenen URL ein grüner Hacken oder ein rotes Kreuz angezeigt. Dies entscheidet sich aus der Verfügbarkeit und der robots.txt Datei des entsprechenden Servers. Bei folgender robots.txt wird eine Seite trotz Erlaubnis nicht durchsucht.

Code: Alles auswählen
User-agent: *
Allow: /
Disallow: /


Laut "Internet Draft specification" "A Method for Web Robots Control" in Kapitel 3.2.2 wird jeweils die erste Übereinstimmung verwendet. Der Sinn einer solchen robots.txt erschliesst sich mir nicht. Dennoch gibt es solche in freier Wildbahn, z.B. http://www.technotrend.de/robots.txt.

A Method for Web Robots Control: http://www.robotstxt.org/norobots-rfc.txt


yacy_v0.7_20090121_5494.tar.gz

uname -mrspv
Linux 2.6.27.19-170.2.35.fc10.i686 #1 SMP Mon Feb 23 13:21:22 EST 2009 i686 i686

java -version
java version "1.6.0_12"
Java(TM) SE Runtime Environment (build 1.6.0_12-b04)
Java HotSpot(TM) Server VM (build 11.2-b01, mixed mode)
papyrus
 
Beiträge: 4
Registriert: Di Mär 31, 2009 3:48 pm

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 1 Gast

cron