robots.txt nicht korrekt geladen?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

robots.txt nicht korrekt geladen?

Beitragvon zottel » Mi Jan 16, 2013 4:38 pm

Hallo,

ich habe mir jetzt yacy auf meinem Server installiert und teste gerade ein wenig herum.

Dabei ist mir etwas weniger schönes aufgefallen:

Anscheinend wird die robots.txt nicht immer korrekt geladen und in die Datenbank übernommen. Bei einer Suche habe ich eine Seite von meinem Friendica-Server gefunden, die eigentlich durch die robots.txt für Suchmaschinen verboten ist.

Daraufhin habe ich mir die in yacy gespeicherte Kopie der robots.txt angesehen.

Erstaunlicherweise ist für friendika.zottel.net:80 die richtige robots.txt gespeichert. Für friendika.zottel.net:443 existiert jedoch zwar ein Eintrag, der aber komplett leer ist -> alles erlaubt.

Wie kommt das zustande? https://friendika.zottel.net/robots.txt ist problemlos erreichbar.
zottel
 
Beiträge: 51
Registriert: Mi Jan 16, 2013 3:04 pm

Re: robots.txt nicht korrekt geladen?

Beitragvon Orbiter » Mi Jan 16, 2013 5:22 pm

danke, gut beschriebener bug: konnte ich so nachvollziehen. Ich schaue mir das an.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: robots.txt nicht korrekt geladen?

Beitragvon zottel » Mi Jan 16, 2013 5:27 pm

Super, danke.

Webseiten (die ja erfolgreich indiziert werden) werden nicht anders geladen als die robots.txt, oder? Der https-Zugriff auf friendika.zottel.net funktioniert nur mit SNI, deshalb die Frage, ob es damit etwas zu tun haben könnte.
zottel
 
Beiträge: 51
Registriert: Mi Jan 16, 2013 3:04 pm

Re: robots.txt nicht korrekt geladen?

Beitragvon Orbiter » Mi Jan 16, 2013 5:39 pm

hab den Fehler gefunden und und einen fix in git gepusht, update sollte in rund 10 minuten runtergeladen werden können.
Ja, der Download für die robots.txt und die Webseiten ist der gleiche Prozess, nur wurde die robots.txt URL falsch zusammengebaut...
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: robots.txt nicht korrekt geladen?

Beitragvon zottel » Do Jan 17, 2013 8:53 am

Wunderbar, vielen Dank!
zottel
 
Beiträge: 51
Registriert: Mi Jan 16, 2013 3:04 pm

Re: robots.txt nicht korrekt geladen?

Beitragvon mass » Mo Feb 11, 2013 8:10 am

Hello.
I do not know correctly chosen a theme or not , http://127.0.0.1:8090/ConfigRobotsTxt_p.html do not save the settings. And by default ,all prohibited.
mass
 
Beiträge: 56
Registriert: Do Jun 14, 2012 9:46 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 1 Gast

cron