Crawler-Loop

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawler-Loop

Beitragvon wsb » Fr Nov 28, 2008 10:42 am

Nachdem wir neulich das Problem hatten, dass der Crawler FESThängt, haben wir jetzt das Gegenteil: er läuft in einer Schleife bis ans Ende aller Tage ... Konkrekt: ich war dabei, http://www.hannover.de zu indexieren (ohne ?-Seiten), nach 2 Tagen fielen mir die vielen Fehlermeldungen auf; der Blick in die LOGs zeigt, dass Tausende von Seiten versucht werden zu crawlen und indexieren, die es nicht gibt. Typischerweise sieht sowas so aus:
Code: Alles auswählen
https://www.hannover.de/baeder/de/de/de/buerger/de/nightlife/
https://www.hannover.de/baeder/de/de/de/de/de/buerger/nightlife/index.html

Die Abschnitte "/de/de/de/de/de/" werden dabei immer länger; und jeder dieser Links führt auf die Fehlerseite
http://www.hannover.de/errors/404.html Diese liefert Status OK und wird auch brav indexiert. Auf der Fehlerseite stehen dann wieder realtive Links der Form .../de/buerger/... - ich vermute, dass darin das Problem liegt.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler-Loop

Beitragvon Lotus » Fr Nov 28, 2008 11:47 am

Das Problem ist, dass https://www.hannover.de/baeder/de/de/de ... nightlife/ ein HTTP "302 Found" meldet und http://www.hannover.de/errors/404.html ein "200 OK". D.h. der Server meldet, dass alles in Ordnung sei.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawler-Loop

Beitragvon wsb » Fr Nov 28, 2008 12:14 pm

Lotus hat geschrieben:Das Problem ist, dass https://www.hannover.de/baeder/de/de/de ... nightlife/ ein HTTP "302 Found" meldet und http://www.hannover.de/errors/404.html ein "200 OK". D.h. der Server meldet, dass alles in Ordnung sei.

Ja, das ist klar. Aber das machen viele so. Die Frage ist: WIE den Crawler bremsen??
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler-Loop

Beitragvon DanielR » Sa Nov 29, 2008 10:04 am

Indem der Server ein 404 sendet!
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Crawler-Loop

Beitragvon wsb » So Nov 30, 2008 9:44 am

DanielR hat geschrieben:Indem der Server ein 404 sendet!

Keine Macht der Welt kann einen Serverbetreiber dazu ZWINGEN. Und leider machen das viele Serverbetreiber so (falsch). Darum muss es eine Lösung auf Crawlerseite geben. Z.B. vielleicht so: wenn der Crawler zum soundsovielten Mal die gleiche Errorseite holt, merkt er, dass da was faul ist - und hört auf damit.

wget kriegt das ja auch hin (und BigGoogle sowieso),
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler-Loop

Beitragvon Lotus » So Nov 30, 2008 10:56 am

Ich habe mir das noch einmal angesehen. Da bei 404 immer auf die gleiche URL weitergeleitet wird, sollte diese, weil schon indexiert, aussortiert werden. Die /de/de/de... müssten also woanders her kommen.

Im übrigen sehe ich in der robots.txt:
Code: Alles auswählen
User-agent: *
...
Disallow: /baeder
...

Wäre also Interessant, was das für Fehlermeldungen waren.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawler-Loop

Beitragvon wsb » So Nov 30, 2008 11:20 am

Lotus hat geschrieben:Ich habe mir das noch einmal angesehen. Da bei 404 immer auf die gleiche URL weitergeleitet wird, sollte diese, weil schon indexiert, aussortiert werden. Die /de/de/de... müssten also woanders her kommen.

Im übrigen sehe ich in der robots.txt:
Code: Alles auswählen
User-agent: *
...
Disallow: /baeder
...

Wäre also Interessant, was das für Fehlermeldungen waren.

Diese: http://www.hannover.de/errors/404.html - oder was meintest Du?

Und dass die robots.txt nicht wirkt ist ja äußerst seltsam ... soweit ich weiss, beachtet yacy die doch?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste