Seite 1 von 1

robot.txt

BeitragVerfasst: Sa Mär 01, 2008 10:48 pm
von yacyholic
hallo... gibt es eine möglichkeit, dass der yacy-crawler die robot.txt nicht auszuwertet sondern alles brav macht was man ihm aufträgt ;)?

Re: robot.txt

BeitragVerfasst: Sa Mär 01, 2008 11:16 pm
von Orbiter
naja der Einbau einer entsprechenden Konfiguration wäre sicherlich einfach, aber ich persönlich würde das nicht gerne im Code sehen. Der Grund ist, das die robots.txt entweder dafür genutzt wird, das ein Crawler in einen deadlock läuft (damit der Webmaster den Crawler unterstützt und gleichzeitig die Zugriffe auf seinen Server vermindert) oder weil der Webmaster einfach das automatische Erfassen seiner Seiten nicht wünscht. In beiden Fällen würde ein Ignorieren der robots.txt zu einem riesenärger führen, entweder zu einem technischen Versagen des Crawlers oder zu negativen Reaktionen bei Webmastern die dann zu entsprechenden Reaktionen in Foren bzgl. YaCy führt. Das können wir nicht gebrauchen und macht keinen Sinn für alle Beteiligten.

Re: robot.txt

BeitragVerfasst: So Mär 02, 2008 1:02 am
von yacyholic
bin mir über die rechtslage der robot.txt zwar noch nicht ganz im klaren, aber ich will ja eigentlich auch nicht wirklich crawlen mit yacy... will nur eine linkliste zu verschiedenen dokumenten abklappern und diese dokumente dann in den index aufnehmen (also crawlen mit tiefe 0). hast du vllt. nen tipp, wie man dies hinbekommen könnte? danke!

Re: robot.txt

BeitragVerfasst: So Aug 17, 2008 10:33 am
von Orbiter
mit Tiefe 0 crawlen ist ja möglich wenn man mit einer Linkliste Startet, und eben die Tiefe auf 0 stellt. Aber auf dabei sollte die robots.txt beachtet werden.