robot.txt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

robot.txt

Beitragvon yacyholic » Sa Mär 01, 2008 10:48 pm

hallo... gibt es eine möglichkeit, dass der yacy-crawler die robot.txt nicht auszuwertet sondern alles brav macht was man ihm aufträgt ;)?
yacyholic
 

Re: robot.txt

Beitragvon Orbiter » Sa Mär 01, 2008 11:16 pm

naja der Einbau einer entsprechenden Konfiguration wäre sicherlich einfach, aber ich persönlich würde das nicht gerne im Code sehen. Der Grund ist, das die robots.txt entweder dafür genutzt wird, das ein Crawler in einen deadlock läuft (damit der Webmaster den Crawler unterstützt und gleichzeitig die Zugriffe auf seinen Server vermindert) oder weil der Webmaster einfach das automatische Erfassen seiner Seiten nicht wünscht. In beiden Fällen würde ein Ignorieren der robots.txt zu einem riesenärger führen, entweder zu einem technischen Versagen des Crawlers oder zu negativen Reaktionen bei Webmastern die dann zu entsprechenden Reaktionen in Foren bzgl. YaCy führt. Das können wir nicht gebrauchen und macht keinen Sinn für alle Beteiligten.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: robot.txt

Beitragvon yacyholic » So Mär 02, 2008 1:02 am

bin mir über die rechtslage der robot.txt zwar noch nicht ganz im klaren, aber ich will ja eigentlich auch nicht wirklich crawlen mit yacy... will nur eine linkliste zu verschiedenen dokumenten abklappern und diese dokumente dann in den index aufnehmen (also crawlen mit tiefe 0). hast du vllt. nen tipp, wie man dies hinbekommen könnte? danke!
yacyholic
 

Re: robot.txt

Beitragvon Orbiter » So Aug 17, 2008 10:33 am

mit Tiefe 0 crawlen ist ja möglich wenn man mit einer Linkliste Startet, und eben die Tiefe auf 0 stellt. Aber auf dabei sollte die robots.txt beachtet werden.


Zuletzt als neu markiert von Anonymous am So Aug 17, 2008 10:33 am.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 8 Gäste

cron