Double-Check Queue

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Double-Check Queue

Beitragvon athea » So Aug 31, 2014 1:42 pm

Hallo zusammen!

Beim Crawlen meherer Domänen habe ich folgende Meldung:
Code: Alles auswählen
REJECTED http://www.domaene.de/de/ - cannot load: load error - java.io.IOException: CRAWLER Redirect of URL=http://www.domaene.de/ to http://www.
domaene.de/de/ placed on crawler queue for double-check

Lassen die einen nicht rein oder sollte ich einfach nur warten?

Danke für die Antworten: Athea
athea
 
Beiträge: 8
Registriert: Do Mai 29, 2014 4:55 pm

Re: Double-Check Queue

Beitragvon David » Mi Sep 03, 2014 8:26 pm

Domaene.de (Poco.de), ist das die tatsächliche Domain, die du indexieren willst? Falls nein, kannst du uns die richtige Adresse wissen lassen, damit wir es testen können?
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: Double-Check Queue

Beitragvon athea » Di Sep 09, 2014 8:35 am

Hi und Dank für die Reaktion

Es geht um die Domäne http://www.kia.de

Ich habe mal das Logfile von mir angehangen.

Grüße : Athea
Dateianhänge
yacy00.log.tar.gz
(10.6 KiB) 95-mal heruntergeladen
athea
 
Beiträge: 8
Registriert: Do Mai 29, 2014 4:55 pm

Re: Double-Check Queue

Beitragvon David » Sa Sep 13, 2014 3:10 pm

Sehe ich das richtig, dass du den Crawl so eingestellt hast, dass nur Seiten von "kia.de" akzeptiert werden? Weil dann würde es ja Sinn machen, dass es nicht funktioniert, da die Domain kia.de ja nur eine Weiterleitung zu kia.com ist.
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: Double-Check Queue

Beitragvon athea » Di Nov 25, 2014 5:57 pm

Hi zusammen.

Sorry für die späte Reaktion. Ein übereifriger Businesskasper mit Stern hat mich vom Fahrrad geholt, was einen längeren Aufenthalt in diversen medizinischen Einrichtungen zur Folge hatte.

Wie dem auch sei: Das Beispiel Kia war blöd. Das hatte ich nicht so bedacht. Das Problem existiert aber weiterhin.
So zum Beispiel bei der Domäne 'http://www.hobby-caravan.de'. Da ist eine Weiterleitung auf 'http://www.hobby-caravan.de/de' drauf. Danach ist dann Feierabend mit crawlen.
Starte ich den Crawl von 'http://www.hobby-caravan.de/de' klappt alles wunderbar

Die Yacy-Installation ist aus dem deb-Repository gerade frisch aktualisiert.

Logile imAnhang

Grüße und schönen Tag noch : Athea
Dateianhänge
yacy00.log.tar.gz
(5.99 KiB) 87-mal heruntergeladen
athea
 
Beiträge: 8
Registriert: Do Mai 29, 2014 4:55 pm

Re: Double-Check Queue

Beitragvon Erik_S » Di Nov 25, 2014 7:03 pm

Hallo,

I 2014/11/25 17:35:59 HTCACHE storing content of url http://www.hobby-caravan.de/, 31588 bytes
Also das dort immerhin 30kBytes geladen wurden zeigt doch das der Weiterleitung gefolgt wurde, die Weiterleitung selber dürfte nicht mal 1 kByte benötigen. Das und die letzte Zeile im Log lässt mich vermuten das der Crawler irgendein Problem damit hat diese Daten der gecrawlten Domain zuzuordnen.

@Orbiter:
die ersten 7 Zeilen in dem Log deuten IMHO darauf hin das gar keine echte Internetverbindung besteht oder werden die tatsächlich relevanten IP-Adressen nicht geloggt?

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 2 Gäste