Google vs. Asterisk in robots.txt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Google vs. Asterisk in robots.txt

Beitragvon Quix0r » Di Mär 30, 2010 1:40 am

Derzeit hat die robots.txt auf meinem Peer folgenden Inhalt:
Code: Alles auswählen
# robots.txt for free-search.yacy

User-agent: *


# all
Disallow: /

Dies klappt auch bei allen - fast allen - Suchmaschinen. Bekanntermassen sollten per Spezifikation (siehe http://www.robotstxt.org ) sich alle Roboter/Spider/Crawler, sprich alle maschinellen Besucher einer Webseite auf den Asterisk (da Sternchen) reagieren. Hier aber scheiden sich bei Google die Geister, denn Google backt sich ein Ei auf das Sternchen...

Google moechte "persoenlich" und das sowohl fuer den "normalen" Bot, als auch fuer alle anderen Bots (Image-Crawler usw.) angesprochen werden. Dies kann bereits in diversen Blogs nachgelesen werden, die der eine oder andere Blogger da fast verzweifelt ist.

Ich habe mir bereits - schnelles Durchblicken nur - die htroot/robots.java angesehen, bin aber nicht ganz schlau draus geworden, wo da das Asterisk eingebunden wird. Es muesste im Prinzip die gesamte Disallow-Liste fuer's Asterisk plus fuer alle Google-Agents durchlaufen werden, also eine verschachtelte Schleife. Vielleicht kann dies sogar aus dem Webinterface konfigurierbar gemacht werden, einfach per Anticken (Haeckchen setzen)?

Glatt den Hintergrund zu diesem Posting vergessen. Fuegt mal bitte diesen Link im Browser ein und anschliessend das Google-Cookie dann wieder loeschen:

http://www.google.ca/search?hl=en&q=site:free-search.homelinux.org

(.de/.com sind bei mir bereits gesperrt, daher .ca)

Edit: Ich hatte vor ein paar Monaten mal die Node komplett offen gehabt, entsprechend findet man die Ergebnisse nicht mit den Zeiteinschraenkungen (wie aktuell die Ergebnisse sind).

Hier seien mal welche genannt:
Code: Alles auswählen
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google*
Disallow: /

User-agent: Googlebot-Mobile
Disallow: /

User-agent: Googlebot-Image
Disallow: /

Der unterste ist frei aus der Erinnerung. Bitte kontrollieren, da er (Bildersuche) sonst nicht geblockt wird.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast