Wird die robots.txt von YaCy richtig interpretiert?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon tara » Di Sep 09, 2008 7:39 pm

Zwei Dinge sind mir im Indexier-Puffer (http://localhost:8080/IndexCreateIndexingQueue_p.html) aufgefallen:

1) Die Seite http://www.staff.uni-mainz.de/lsnhmmz/ wird wegen "denied by robots.txt" nicht weiter gecrawlt. Die http://www.uni-mainz.de/robots.txt sagt jedoch das nur /~presse1/ gesperrt ist. Kann es sein das yacy unter http://www.staff.uni-mainz.de/robots.txt ("Zugriff verweigert") schaut, anstatt unter http://www.uni-mainz.de/robots.txt ?


2) Die Angabe "Disallow: " in einer robots.txt erlaubt alles. Dagegen sperrt "Disallow: /" alles. D.h. es ist ein großer Unterschied, ob ein Schrägstrich nach Disallow steht oder nicht. Siehe: http://de.wikipedia.org/wiki/Robots.txt#Aufbau

Das ist mir bei einigen Domains aufgefallen, die deshalb nicht gecrawlt werden können, z.B.

- http://www.boeblingen.de/robots.txt
- http://www.domschenke-billerbeck.de/robots.txt
- http://www.neuhaus-schierschnitz.de/robots.txt
- http://www.pension-loeffler.de/robots.txt

Oder habe ich etwas übersehen / falsch verstanden?
Verwendete Version: 0.597/05132
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon flori » Di Sep 09, 2008 10:24 pm

Zu 1)
Robots.txt's werden immer über die zugehörige Domain abgefragt. Die Suchmaschinen können ja nicht wissen, ob die Subdomain auch vom gleichen Webmaster verwaltet werden wie die Hauptdomain.
Es ist Absicht das YaCy die Seite nicht indiziert, wenn man als Antwort auf /robots.txt ein "403 Forbidden" bekommt. Andere Suchmaschinen machen das genauso. Du kannst ja den webmaster anschreiben und ihn bitten eine leere robots.txt anzulegen oder die Antwort auf nicht gefundene Seiten wie üblich auf "404 Not Found" zu stellen.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon flori » Do Sep 11, 2008 7:15 pm

Zu 2)

Das war ein Robot-Parser-Problem. Danke für den ausführlichen Bericht. Fix in 5137. Bitte testen.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon Orbiter » Do Sep 11, 2008 7:25 pm

tara, flori: bei solchen threads bin ich ja immer ziemlich begeistert:
- Problem korrekt beschrieben, alles sachlich, Referenzen angegeben, Beispiele genannt
- Lösung erörtert, mit dokumentation untermauert
- und gleich Problem gelöst, bug gefixt.
total gut. Bitte mehr davon.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon flori » Fr Sep 12, 2008 10:09 am

Ja so macht es Spaß!

Leider hab ich aber gestern großen Mist gebaut und es wurden gar keine robots.txt-Zeilen mehr geparst.
!!Bitte nicht mit r3137 und r3138 crawlen!!

r3139 sollte wieder gehen.

EDIT: Außerdem muss man die Datei DATA/PLASMADB/crawlRobotsTxt.heap löschen, damit die Robots.txt neu gepart werden.
Zuletzt geändert von flori am Fr Sep 12, 2008 10:21 am, insgesamt 1-mal geändert.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon tara » Fr Sep 12, 2008 5:33 pm

Ja, funktioniert jetzt. Vielen Dank.

flori hat geschrieben:Du kannst ja den webmaster anschreiben und ihn bitten eine leere robots.txt anzulegen oder die Antwort auf nicht gefundene Seiten wie üblich auf "404 Not Found" zu stellen.


Die Seitenbetreiber anzuschreiben, die anstatt einer robots.txt ein 403 liefern dürfte doch recht aufwendig werden. Das sind einige. Zudem gibt es auch zahlreiche Seiten, die nur Googlebot als Crawler zulassen, z.B.

- http://www.bs.ch/robots.txt (Internetseite der Stadt Basel)
- http://www.rathaus-bremen.de/robots.txt

Die Stadt Nieheim (http://www.nieheim.de/robots.txt) lässt auch nur die "Großen" zu. Ich könnte die Liste beliebig fortsetzen. Das ist recht traurig, dass gerade die Betreiber der Internetseiten von Stadt-, Gemeinde- und Kreisverwaltungen teilweise so sinnfreie Regeln in die robots.txt schreiben.

Dann gibt es auch Seiten, die (warum auch immer) per "Disallow: /" eigentlich gar nicht in den Index sollen, aber dennoch den Weg in den Google Index gefunden haben:

http://www.boetzingen.de/robots.txt
http://www.nederbetuwe.nl/robots.txt
http://www.skive.dk/robots.txt
http://www.bergen.nl/robots.txt
http://www.landkreis-rastatt.de/robots.txt
http://www.gemeentemaasgouw.nl/robots.txt

Die Liste lässt sich auch hier beliebig fortsetzen. Ich befürchte das eine e-Mail mit einem Hinweis an die Seitenbetreiber eh nach /dev/null geht.. Mal schauen.

Das soll gar kein Googlebashing sein sondern eher als Hinweis dienen, dass an dieser Stelle den YaCy Peers die Hände gebunden sind. Sicherlich nicht ganz unwichtig zu wissen, wenn YaCy beispielsweise einem Publikum präsentiert wird und die Frage gestellt wird warum denn so wichtige Seiten wie die von Stadtverwaltungen etc. nicht gefunden werden. Sprich: Es liegt nicht unbedingt an YaCy.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Wird die robots.txt von YaCy richtig interpretiert?

Beitragvon Lotus » Fr Sep 12, 2008 8:07 pm

tara hat geschrieben:Die Stadt Nieheim (http://www.nieheim.de/robots.txt) lässt auch nur die "Großen" zu.

(OT) Doppelte Negierung hebt sich auf. 8-) :twisted:
Code: Alles auswählen
User-agent: *
Disallow: /
Disallow: /
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron