CrawlStart: No resource content available

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

CrawlStart: No resource content available

Beitragvon dulcedo » Mo Sep 07, 2009 11:41 am

No resource content available (1) source == null, url = http://spd.de/; url = http://spd.de/


Symphatisch ist dass YaCy die SPD auch nicht mag, unsymphatisch allerdings dass er die ganze Domain nicht crawlt.
Diesen Fehler hatte ich schon ein paar mal und es auf falschen Startpunkt geschoben, mit der SDP-Webseite ist aber auf den ersten Blick noch alles in Ordnung.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CrawlStart: No resource content available

Beitragvon dulcedo » Di Sep 08, 2009 3:03 am

Code: Alles auswählen
I 2009/09/08 03:58:34 PARSER Unable to parse 'http://www.haz.de/layout/set/gallery/Mediathek/Fotostrecken/Gemueseschlacht-auf-der-Dornroeschenbruecke/schlacht2/(at)/90'. No resource content available (1) source == null, url = http://www.haz.de/layout/set/gallery/Mediathek/Fotostrecken/Gemueseschlacht-auf-der-Dornroeschenbruecke/schlacht2/(at)/90
W 2009/09/08 03:58:34 PLASMA Unable to parse the resource 'http://www.haz.de/layout/set/gallery/Mediathek/Fotostrecken/Gemueseschlacht-auf-der-Dornroeschenbruecke/schlacht2/(at)/90'. No resource content available (1) source == null, url = http://www.haz.de/layout/set/gallery/Mediathek/Fotostrecken/Gemueseschlacht-auf-der-Dornroeschenbruecke/schlacht2/(at)/90; url = http://www.haz.de/layout/set/gallery/Mediathek/Fotostrecken/Gemueseschlacht-auf-der-Dornroeschenbruecke/schlacht2/(at)/90


Auch hier keine Auffälligkeiten, oder sieht dort jemand etwas das YaCy stören könnte? Diese Meldungen sind recht oft im log zu finden.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CrawlStart: No resource content available

Beitragvon bluumi » Di Sep 08, 2009 7:08 am

"PARSER Unable to parse xx. No resource content available (1) source == null, url = "
Solche Meldungen gab es früher wenn der Parser abgestürzt war oder ist. Kann es sein, dass die seite etwas enthält was er nicht mag :) [spd]

No resource content available (1) source == null, url = http://spd.de/; url = http://spd.de/ <- bekomme ich auch gleich.

Könnte aber auch etwas viel "einfacheres" sein, und zwar dass Yacy bekannt wird, im negativen Sinne, und diese Webmaster dem Apache beigebracht haben bei AgentString "Yacy" eine leere Seite zurück zu liefern.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: CrawlStart: No resource content available

Beitragvon dulcedo » Di Sep 08, 2009 7:12 am

D 2009/09/08 08:10:38 CRAWLER problem loading http://www1.karlsruhe.de/Zoo/zoo.htm: Unsupported protocol 'http' in url http://www1.karlsruhe.de/Zoo/zoo.htm

Das ist ebenfalls seltsam.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CrawlStart: No resource content available

Beitragvon bluumi » Di Sep 08, 2009 11:34 am

Lach, naja.. die angegebene Seite ist ja auch nicht wirklich sinnvoll -
Error 300
Multiple Choices
The document name you requested (/Zoo/zoo.htm) could not be found on this server. However, we found documents with names similar to the one you requested.

Aber unsupported Protocol klingt "lustig/seltsam" :)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: CrawlStart: No resource content available

Beitragvon guybrush242 » Mi Sep 09, 2009 1:12 pm

Könnte daran liegen, das beide Seiten keinen HTTP-Code 200 zurückgeben.

die eine bringt eine 302 (HTTP-redirect) , die andere besagte 300.
guybrush242
 
Beiträge: 4
Registriert: Mi Nov 05, 2008 12:33 pm

Re: CrawlStart: No resource content available

Beitragvon Lotus » Mi Sep 09, 2009 7:50 pm

Den Redirects wird soweit ich mich erinnern kann im Apache http-client transparent gefolgt. D.h. dort sollte es keine Probleme geben.

Ich vermute ein Caching-Problem. Dort ist jedoch genaues debuggen gefragt, wozu ich mich noch nicht auf meinen Hintern gesetzt habe.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: CrawlStart: No resource content available

Beitragvon dulcedo » Do Sep 10, 2009 8:16 am

Mir ist das schon öfters auch bei anderen Seiten aufgefallen, vermutlich machen die alle diesen Redirect, richtig auffällig wird es natürlich bei einem Startpunkt. Ich habe bei der SPD auch andere Seiten als Start getestet dort wird anscheinend alles so ausgeliefert.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CrawlStart: No resource content available

Beitragvon dulcedo » So Sep 20, 2009 6:45 am

Wenn ich SVN6331 mit -l starte erscheint auf der Konsole bei 1000ppm sekündlich solch eine Warning.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CrawlStart: No resource content available

Beitragvon waschbaer » Mi Sep 30, 2009 4:45 pm

Ich habe das gleiche Problem bei der Seite http://www.lehrer-online.de. Kann mir jemand einen Tipp geben?
waschbaer
 
Beiträge: 1
Registriert: Mi Sep 30, 2009 4:43 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron