Unable to detect mimetype of resource (4)

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Unable to detect mimetype of resource (4)

Beitragvon tara » Mo Dez 08, 2008 9:57 pm

Beim Versuch die Seite http://klassikmotorrad.de/willkommen.xml zu crawlen bekam ich folgenden Fehler im Log:

Code: Alles auswählen
PLASMA Unable to parse the resource 'http://klassikmotorrad.de/willkommen.xml'. Unable to detect mimetype of resource (4).


Wenn ich diese Seite über /CrawlStart.html crawlen möchte, wird der <title> auch schon falsch ausgewertet.

Da ich im Moment nicht einordnen kann, ob das ein Bug ist oder ein passender Parser (für xsl(t))einfach noch nicht eingebaut ist, stelle ich das erstmal hier hin.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Unable to detect mimetype of resource (4)

Beitragvon Huppi » Sa Dez 13, 2008 12:37 am

Uih, gute Wahl für einen Crawlstart. Crawlst Du noch mehr aus dem Bereich?
Meine Themenpeers "Motorradsuche" und "MotoYaCy" sind alte und neue Installationen dazu, sind gerade offline, weil der Umzug vom Alt-PC über DSL auf den Webserver jetzt ansteht. Wenn Du einen Motorrad-Cluster aufmachen möchtest ... :-)
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Unable to detect mimetype of resource (4)

Beitragvon tara » Sa Dez 13, 2008 11:49 am

In der c't 14/2008 ist ein Artikel "Dynamische Websites bauen mit XSLT". Daher habe ich den Link. Also eher Zufall.

Was noch interessant ist, dass Google diese Seiten nicht im Index hat: http://www.google.de/search?hl=de&q=sit ... uche&meta=

Die Inhalte von Klassikmotorrad.de gibt es auch unter http://www.igfkml.de . Da hat Google auch nur HTML im Index: http://www.google.com/search?q=site:igfkml.de

Eine robots.txt gibt es nicht. Daran kann es also nicht liegen.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 3 Gäste