Robots.txt und Duplicate content (Dubletten) etc.

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Robots.txt und Duplicate content (Dubletten) etc.

Beitragvon dywt » Fr Apr 23, 2010 9:04 am

Hallo zusammen, :D

erstmal meine Komplimente für das hervorragende Projekt! Ich habe mittlerweile Yacy installiert und beim ersten Testen sind mir ein paar Dinge aufgefallen, die mir merkwürdig vorkamen. Ich habe dazu im Wiki und im sonstigen Netz keine Antworten gefunden, wäre super wenn ihr mit weiterhelfen könntet.

1) robots.txt
Gibt es spezielle Einstellungen, die verhindern, dass der Crawler die robots.txt auf zu crawlenden Webseiten ignorierst? Mein Yacy Crawler nimmt nämlich leider was er kriegen kann. Bei einer speziellen Seite wurden alle Suchmaschinen über User-Agent * ausgeschlossen.

2) Duplicate content
Gibt es eine Möglichkeit, dass Yacy Webseiten mit gleichem Inhalt unter verschiedenen Urls (z.B. Mirrorseiten) nicht indexiert? Generell könnte ja ein Hash über jede Seite gebildet werden und verglichen. Das wäre mit ein sehr großes Anliegen.

3) Listen
In der Peer-Administration unter "Crawler-Überwachung"->"Parser Fehler" gibt es ja schöne Listen mit teilweise sehr viele Einträge. Standardmäßig werden die ersten 100 angezeigt. Ich habe eine Liste mit über 1000 Einträgen. Klicke ich auf "Mehr anzeigen" tut sich leider nichts. Es steht zwar oben dran, dass nun die letzten z.B. 200 Einträge angezeigt werden, aber die Liste wird nicht länger. Getestet in FireFox 3.6 und IE8. Es gibt noch weitere Listen im Backend, wo mir das gleiche Verhalten aufgefallen ist - ein Bug -?

4) Kategorien
Ist es möglich in Yacy einzelnen zu crawlenden Domains eine spezielle Kategorie mitzugeben? So könnte man für a.tld b.tld und c.tld die Kategorie "Automarken" vergeben...für d.tld und e.tld die Kategorie "Motorräder". Diese Kategorien könnte man dann bei der Suche anwählen. Ist sowas bereits vorgesehen, realisierbar etc.?

Vielen Dank für eure Unterstützung,
viele Grüße!
dywt
 
Beiträge: 2
Registriert: Fr Apr 23, 2010 8:41 am

Re: Robots.txt und Duplicate content (Dubletten) etc.

Beitragvon Orbiter » Fr Apr 23, 2010 9:53 am

Hallo dywt und willkommen!

zu 1: man kann keine Option setzen, um die robots.txt zu ignorieren. So eine Option fehlt absichtlich. Andere Crawler haben solche Optionen und ausserdem die Möglichkeit, User Agents zu faken. Wir haben ebenfalls keine Funktion um den User Agent zu faken. Ich denke es ist gut hier Transparenz zu haben. Den einzigen Rat den ich dir hier geben kann ist, die Web-Admins anzuschreiben und um Änderung der robots.txt zu bitten.

zu 2: wichtiger Punkt. Leider ist es mit einem Content-Hash nicht so einfach, es gibt auch auf gleich bleibende Seiten immer Dinge die sich ändern, sei es Werbung, Zeitstempel, Widgets und andere Schnickschnack. Mit anderen Worten: wir haben hier noch nichts, weil es nicht so einfach ist. Steht aber auf der Wunschliste.

zu 3: hab einen Fix versucht, SVN 6834. Bekommst du über den Auto-Updater in einer Stunde. Weiss aber nicht ob der hilft, eigentlich ist dieses Servlet bugfrei schon seit langer Zeit

zu 4: gute Idee, hab ich mir schon länger unter dem Stichwort 'Crawl-Tags' vorgemerkt. Wäre was sinnvolles, haben wir aber noch nicht. Muss ich mal sehen wann das dran kommt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Robots.txt und Duplicate content (Dubletten) etc.

Beitragvon dywt » Fr Apr 23, 2010 10:25 am

Hallo Orbitor,

vielen Dank für die schnelle Antwort und für die Hilfe bezüglich des Patches!

zu 1): Ich finde es ebenso sinnvoll wie du, dass sich Yacy an robots.txt halten sollte. Leider tut das meine Yacy Installation nicht. Ich habe mich vielleicht etwas falsch ausgedrückt zuvor.

Code: Alles auswählen
User-Agent: *
Disallow: /stats/
Disallow: /erdbeere.html
Disallow: /test.html


Diese robots.txt wird leider komplett ignoriert. Sie liegt direkt auf der Hauptebene des zu crawlenden Webservers und Google etc. hält sich auch an diese. Ich verwende übrigens die aktuelle Yacy-Win-Version 0.94.

Über die PHP-API ist der User-Agent aber zu ändern oder?

zu 2): Da gebe ich Dir vollkommen recht. Aber mit der vorgeschlagenen Methode ließe sich zumindest ein Teil der doppelten Seiten schon einmal entfernen.

zu 3): Herzlichen Dank! Ich werde testen und berichten.

zu 4): Danke ebenfalls.


Mittlerweile hat sich schon wieder eine neue Frage ergeben:

Ist es möglich die Beschreibung der Webseiten in den Suchergebnisse länger zu machen? Also dass unter dem Titel der jeweiligen Website in den Sucherergebnissen mehr Beschreibungstext angzeigt wird?

Vielen Dank, viele Grüße! :)
dywt
 
Beiträge: 2
Registriert: Fr Apr 23, 2010 8:41 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste