robots.txt - Diskussion zum Yacy-Ausschluß

Ereignisse, Vorschläge und Aktionen

robots.txt - Diskussion zum Yacy-Ausschluß

Beitragvon Huppi » Mi Jul 30, 2008 7:47 am

User-Agent: yacybot
Disallow: /


Auf der Website meines Arbeitsgebers. Ich würde gerne verstehen, weshalb yacy dort ausgeschlossen wird.
Ich fände das ganz gut, wenn wir das auch für andere ausschließende Websites angehen. Es kann ja nicht schaden, wenn wir besser verstehen, weshalb yacy Probleme macht und was zur Aussperrung führt.

Vorschlag: erst einmal sammeln, wo yacy in der Disallow-Sektion der Robots.txt steht.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: robots.txt - Diskussion zum Yacy-Ausschluß

Beitragvon Huppi » Di Aug 12, 2008 2:35 am

Ein Fall, wo der yacybot scheinbar Probleme macht:
http://forum.wordpress-deutschland.org/konfiguration/36997-wordpress-laesst-server-abstuerzen.html

Wenn man in Google schaut, scheint der "yacybot" kein Unbekannter zu sein. Scheint aber kein Bösemann zu sein: YaCy Distributed Web Search


Und noch eine recht aktuelle Fundstelle zum YaCy-Bot: http://www.botsvsbrowsers.com/ (13.07.2008)

Die Böse G-Suche nach "yacybot disallow" liefert u.a.:
http://www.quinstreet.com/robots.txt
http://www.ncbi.nlm.nih.gov/robots.txt (ist für's Sciencenet gar nicht so schön ...)
http://www.winopensource.com/robots.txt
http://www.an-dea.de/robots.txt (Bad bots 11/2007)
http://jwstolk.xs4all.nl/robots.txt
# go away: (currently only googlebot and yacybot to save bandwidth)
?
http://www.gentooforum.de/artikel/15507/probleme-mit-plugins-in-twiki.html
http://lists.w3.org/Archives/Public/www-archive/2008Jul/0069.html Ooops
SetEnvIfNoCase User-Agent ".*yacybot*." bad_bot

http://eisblock.homeip.net/useragents.php?action=CLO02&Agent_code=eWFjeSAod3d3LnlhY3kubmV0OyB2MjAwNDA2MDI7IGFtZDY0IExpbnV4IDIuNi4yMi41LTMxLWRlZmF1bHQ7IGphdmEgMS41LjBfMTI7IEV1cm9wZS9kZSk=
bisher hat keiner der yacybot die robots.txt gelesen
(März 2008)
http://forums.digitalpoint.com/showthread.php?p=5053994 (mit Begründung ...)
http://www.webrankinfo.com/forums/viewtopic_67676.htm (Rewrite-Rule für yacybot)

Ergebnisse zu Web Spider Traps:
http://danzcontrib2.free.fr/en/pieges.php

Imagepflege sinnvoll?
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: robots.txt - Diskussion zum Yacy-Ausschluß

Beitragvon Orbiter » Di Aug 12, 2008 7:13 am

wir hatten einen kleinen Bug mit großer Wirkung beim robots.txt - lesen: der bot hat die robots.txt nicht mit dem yacybot-useragent gelesen, sondern mit dem yacy (proxy) useragent. Daher haben wohl viele admins bei einem grep nach yacybot übersehen, dass wir die robots.txt sehr wohl gelesen haben.
Den Bug habe ich schon gefixt in SVN 4968, am 4. Juli.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: robots.txt - Diskussion zum Yacy-Ausschluß

Beitragvon Huppi » Di Aug 12, 2008 5:24 pm

Haben wir dazu schon etwas im Blog? Muß gleich mal nachsehen.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast