Crawler kaputt?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawler kaputt?

Beitragvon wsb » Mo Jun 27, 2011 10:39 am

Ich sehe gerade, dass der Crawler offenbar nicht mehr crawlt: ich gebe im Expert-Mode (CrawlStartExpert_p.html) beliebige Startadressen ein, aber der Crawler bleibt dann immer bei der Startadresse stehen (Crawltiefen: 2-5 probiert); die folgende Zeile erscheint z.B. nach http://www.berlin.de als Startadresse:
Code: Alles auswählen
local crawler   NkttcQUICtcA   rrzn-kursix   0   2011/06/27   CRAWLING-ROOT   http://www.berlin.de/

Und das war es denn, danach geschieht nichts mehr; bei anderen Startadressen genau das Gleiche. Das ganze mit dem (heute) neusten Release SVN 7803.

Sicherlich mache ich was falsch, oder sehe irgendwas verkehrt - aber was mag es bloß sein??
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler kaputt?

Beitragvon Orbiter » Mo Jun 27, 2011 11:43 am

die robots.txt verbietet ja fast alles:
http://www.berlin.de/robots.txt
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler kaputt?

Beitragvon wsb » Mo Jun 27, 2011 12:24 pm

Orbiter hat geschrieben:die robots.txt verbietet ja fast alles:
http://www.berlin.de/robots.txt

Statt http://www.berlin.de kann da jede andere Startadresse stehen: das gleiche passiert mit http://www.hannover.de oder yacy.net usw ...
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler kaputt?

Beitragvon Orbiter » Mo Jun 27, 2011 12:49 pm

was steht denn in /IndexCreateParserErrors_p.html ?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler kaputt?

Beitragvon wsb » Mo Jun 27, 2011 12:59 pm

Orbiter hat geschrieben:was steht denn in /IndexCreateParserErrors_p.html ?


Das einzige, was da drin steht, ist dieses:
Code: Alles auswählen
Parser Errors
Rejected URL List: There are 1 entries in the rejected-urls list.
There are 1 entries in the rejected-queue:
Initiator    Executor    URL    Fail-Reason
rrzn-kursix    rrzn-kursix    http://berlin.de/    redirection to double content (http return code = 302)

Nachdem berlin.de als Startadresse nicht funktionierte, hatte ich http://www.berlin.de genommen, danach yacy.net - aber von beidem findet sich hier nichts.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste

cron