Heise blockt yacy mit der robot.txt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Heise blockt yacy mit der robot.txt

Beitragvon mk » Do Apr 23, 2009 3:46 pm

Gelgentlich lasse ich yacy einzelne Seiten indexiere. Heute ist mir nun aufgefallen das das nicht mehr funktioniert. Als Ursache stellte sich folgender Eintrag in der robot.txt heraus:

# learn.to/parse.html
User-agent: yacybot
Disallow: /

Vielleicht sollte sich das mal jemand untersuchen.
mk
 

Re: Heise blockt yacy mit der robot.txt

Beitragvon Orbiter » Do Apr 23, 2009 3:54 pm

http://heise.de/robots.txt
User-agent: *
Disallow: /

heise blockiert alle?
Von (speziell) YaCy blockieren kann hier keine Rede sein.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Heise blockt yacy mit der robot.txt

Beitragvon tara » Do Apr 23, 2009 4:01 pm

Doch: http://www.heise.de/robots.txt - du hast das www vergessen.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Heise blockt yacy mit der robot.txt

Beitragvon Orbiter » Do Apr 23, 2009 4:05 pm

oha, na gut, ich frage da mal nach. Was soll denn das learn.to/parse.html ?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Heise blockt yacy mit der robot.txt

Beitragvon thq » Do Apr 23, 2009 5:42 pm

Na ich kann Heise da schon verstehen, technisch gesehen macht YaCy zwar nichts falsch, aber praktisch eben auch nicht gut. Im Endeffekt hat so ziemlich jede Heise Seite nur 10-15% Informationen, der Rest ist nur Ballast. Das führt dazu das wenn man was aktuelles sucht, man mehrere Heise Seiten angezeigt bekommt mit immer den gleichen Snippet und manchmal ist die richtige Seite sogar nicht dabei.

Meiner Meinung nach braucht YaCy was das verwerten von Information angeht wirklich eine neue Logik.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Heise blockt yacy mit der robot.txt

Beitragvon freq.9 » Do Apr 23, 2009 5:46 pm

thq hat geschrieben:Na ich kann Heise da schon verstehen, technisch gesehen macht YaCy zwar nichts falsch, aber praktisch eben auch nicht gut. Im Endeffekt hat so ziemlich jede Heise Seite nur 10-15% Informationen, der Rest ist nur Ballast. Das führt dazu das wenn man was aktuelles sucht, man mehrere Heise Seiten angezeigt bekommt mit immer den gleichen Snippet und manchmal ist die richtige Seite sogar nicht dabei.

Meiner Meinung nach braucht YaCy was das verwerten von Information angeht wirklich eine neue Logik.


Ich weiß nicht wie Google es macht, aber ist das Internet dafür nicht etwas zu unsemantisch?
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Heise blockt yacy mit der robot.txt

Beitragvon thq » Do Apr 23, 2009 5:53 pm

Vielleicht braucht man für große Seiten wie Heise, Wikipedia ... einfach optimierte Parser. Besonders für die verschiedene Foren würde sich das lohnen, da wird bestimmt mehr Ballast gespeichert als Informatives.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Heise blockt yacy mit der robot.txt

Beitragvon Low012 » Do Apr 23, 2009 7:01 pm

Für Google hat Heise sowas im HTML eingebaut: <!--googleoff: index-->
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Heise blockt yacy mit der robot.txt

Beitragvon thq » Do Apr 23, 2009 7:08 pm

Ich finde sogar das die googleon/off schlecht gesetzt sind, man sollte hier zwischen Text und Links unterscheiden.

Und anstatt googleon/off sollten die vielleicht besser was eigenes einführen wie indexeron/off, Heise hat ja die Möglichkeiten so etwas bekannt zu machen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Heise blockt yacy mit der robot.txt

Beitragvon Lotus » Do Apr 23, 2009 7:56 pm

googleon/off ist für die kostenpflichtige Suchlösung, die dort vermutlich benutzt wird.
viewtopic.php?p=12493
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Heise blockt yacy mit der robot.txt

Beitragvon Quix0r » Do Apr 23, 2009 9:44 pm

Ich hab heise.de auf die Blacklist getan, damit er die Seite nicht staendig ansurft. Natuerlich nehme ich sie raus, sobald sie euer Script wieder moegen! :o
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Heise blockt yacy mit der robot.txt

Beitragvon Huppi » Do Apr 23, 2009 10:20 pm

Vielleicht braucht man für große Seiten wie Heise, Wikipedia ... einfach optimierte Parser. Besonders für die verschiedene Foren würde sich das lohnen, da wird bestimmt mehr Ballast gespeichert als Informatives.


Für verschiedene Foren kann ich das bestätigen. Die Idee von Heise-, Wikipedia-, phpBB-Parsern etc. finde ich gut.

Könnte YaCy nicht auch einfach das
<!--googleoff: index-->
standardmäßig mit parsen? Zumindest als auswählbare Option.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Heise blockt yacy mit der robot.txt

Beitragvon irgendjemand » Mo Apr 27, 2009 12:53 am

Orbiter hat geschrieben:Was soll denn das learn.to/parse.html ?

Eventuell, das manche Parser einfach buggy sind? So werden z.B. relative Pfade die yacy in Quellpaketen (tgz, tar.bz) findet, mit dem aktuellen crawl-Pfad verknüpft. Dadurch wird der Server mit haufenweise Anfragen zu Seiten überflutet, die nicht existieren. Als ich yacy vor etwa zwei Wochen mal wieder probiert hatte war das Problem noch akut.

Detlef
irgendjemand
 

Re: Heise blockt yacy mit der robot.txt

Beitragvon Orbiter » Mo Apr 27, 2009 9:48 am

tja, irgendjemand, da hast du ja recht (bis auf das 'Überfluten', der Begriff trifft es zwar für die Menge, aber führt in die Irre wenn es um die Zugriffsgeschwindigkeit geht), aber wenn einem sowas auffällt wäre es doch das einfachste hier einen Bug zu reporten.
Fix in SVN 5890
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Heise blockt yacy mit der robot.txt

Beitragvon irgendjemand » Mo Apr 27, 2009 10:56 am

Das Überfluten war auch auf die Menge bezogen. Und den Bug hatte ich schon vor einigen Monaten hier im Forum gemeldet, als er mir das erste Mal aufgefallen ist.
irgendjemand
 

Re: Heise blockt yacy mit der robot.txt

Beitragvon Orbiter » Mo Apr 27, 2009 12:45 pm

oh sorry, das habe ich bestimmt nicht absichtlich ignoriert. Ich hoffe der Fix beseitig jetzt das Problem.

Ich habe Antwort von Heise:
der Bot ist durch massive 404-Requests aufgefallen, zwischen Tausenden und Zehntausenden pro Tag. Verursacht wird das durch fehlerhaft geparstes HTML.


Eine Möglichkeit, was hier schief gelaufen sein kann ist ja der Bug von 'irgendjemand'. eine andere Möglichkeit könnte das URL-Erraten sein, das ich eingebaut hatte. Hierbei werden alle Unterpfade einer URL als mögliche URL angenommen, und in den Crawler gefeeded. Was anderes kann ich mir momentan nicht vorstellen. Ich frage nach. Hat jemand noch eine andere Idee?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Heise blockt yacy mit der robot.txt

Beitragvon Quix0r » Mo Apr 27, 2009 8:18 pm

Ich glaube kaum, dass Heise fehlerhafte URLs einbaut. Vielleicht koennen sie dir mal ein paar Beispiellinks geben, die YaCy versucht, aufzurufen? Das wuerde ja auch ohne IP gehen. :)
Zuletzt geändert von Quix0r am Di Feb 02, 2010 8:25 pm, insgesamt 1-mal geändert.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Heise blockt yacy mit der robot.txt

Beitragvon Orbiter » Mo Apr 27, 2009 9:07 pm

hab schon darum gebeten, sind noch nicht da. Hab denen auch den Link zu dem Thread hier gegeben, also seid schön nett und benehmt euch gut :D :D :D
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Heise blockt yacy mit der robot.txt

Beitragvon Quix0r » Di Apr 28, 2009 2:23 pm

Okay, werde gaaaanz brav sein. 8-)
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron