Indexer indexiert nicht: "double errors)"

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Indexer indexiert nicht: "double errors)"

Beitragvon wsb » Fr Feb 20, 2009 10:10 am

Wollte gerade die Site http://www.sternenhimmel-aktuell.de/ mit yacy erfassen: der Crawler läuft auch drüber, aber der Indexer weigert sich; als "Fail-Reason" steht unter http://nhf6.rrzn.uni-hannover.de:8080/I ... eue_p.html bei allen Seiten "double errors)". Was sagt mir dieses, und was kann ich dagegen tun? Habe mir den Quellcode der Seiten angesehen: sieht für mich alles ziemlich normal aus.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon Orbiter » Di Feb 24, 2009 12:10 pm

na dann werden die Seiten halt auch tatsächlich double sein. Hier hilft es noch mal zu probieren und den Recrawl-Wert auf bsp. 1 Tag zu setzen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Indexer indexiert nicht: "double errors)"

Beitragvon wsb » Mi Feb 25, 2009 11:20 am

Orbiter hat geschrieben:na dann werden die Seiten halt auch tatsächlich double sein. Hier hilft es noch mal zu probieren und den Recrawl-Wert auf bsp. 1 Tag zu setzen.

Wenn DAS die Ursache wäre, dann müssten doch typische Wörter von diesen Seiten auch gefunden werden - das werden sie aber nicht.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon Low012 » Mi Feb 25, 2009 12:02 pm

Ob ein Peer eine bestimmte Seite schonmal indexiert hat, lässt sich auf http://localhost:8080/IndexControlURLs_p.html (Retrieve by URL/Show Details for URL) überprüfen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon wsb » Mi Feb 25, 2009 2:10 pm

Low012 hat geschrieben:Ob ein Peer eine bestimmte Seite schonmal indexiert hat, lässt sich auf http://localhost:8080/IndexControlURLs_p.html (Retrieve by URL/Show Details for URL) überprüfen.

Das gemeine ist folgendes: wenn ich bei IndexControlURLs_p.html nachsehe, dann IST diese Seite (angeblich) indexiert. Wenn ich aber irgendwelche Wörter von dieser Seite suche (ohne Umlaute, keine kürzer als 3 Buchstaben, keine Stoppwörter), dann wird die Seite nicht gefunden. Daher meine Vermutung: here is a bug?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon Low012 » Mi Feb 25, 2009 3:01 pm

Ist auf http://localhost:8080/ConfigNetwork_p.html (unter Peer-to-Peer Mode) "Index Distribution" eingeschaltet?

Wenn ja, verteilt der Peer einen Teil seiner Daten an andere Peers und löscht sie dann bei sich. Eigentlich soll die redundante Verteilung dafür sorgen, dass auch bei Ausfall eines der Peers, die die Daten erhalten haben, die Daten nicht weg sind. Wenn aber zu viele der Empfänger verschwinden, kann es sein, dass auch die Daten mit der Zeit aus dem Netzwerk verschwinden.

Wenn nein, dann muss es tatsächlich ein Fehler sein.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon wsb » Mi Feb 25, 2009 4:02 pm

Low012 hat geschrieben:Ist auf http://localhost:8080/ConfigNetwork_p.html (unter Peer-to-Peer Mode) "Index Distribution" eingeschaltet?

Wenn ja, verteilt der Peer einen Teil seiner Daten an andere Peers und löscht sie dann bei sich. Eigentlich soll die redundante Verteilung dafür sorgen, dass auch bei Ausfall eines der Peers, die die Daten erhalten haben, die Daten nicht weg sind. Wenn aber zu viele der Empfänger verschwinden, kann es sein, dass auch die Daten mit der Zeit aus dem Netzwerk verschwinden.

Wenn nein, dann muss es tatsächlich ein Fehler sein.

Ja, dort ist "Index Distribution" EINgeschaltet. Die ganze Geschichte ist aber erst ein paar Tage alt. Ich konnte auch direkt nach dem Crawlen und indexieren(?) die Wörter auf der Seite mit der Suche nicht finden.

Wieauchimmer: ich werds erstmal noch einmal probieren ... (und dabei die "Index Distribution" AUSschalten).
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon wsb » Mi Feb 25, 2009 4:34 pm

wsb hat geschrieben:
Low012 hat geschrieben:Ist auf http://localhost:8080/ConfigNetwork_p.html (unter Peer-to-Peer Mode) "Index Distribution" eingeschaltet?

Wenn ja, verteilt der Peer einen Teil seiner Daten an andere Peers und löscht sie dann bei sich. Eigentlich soll die redundante Verteilung dafür sorgen, dass auch bei Ausfall eines der Peers, die die Daten erhalten haben, die Daten nicht weg sind. Wenn aber zu viele der Empfänger verschwinden, kann es sein, dass auch die Daten mit der Zeit aus dem Netzwerk verschwinden.

Wenn nein, dann muss es tatsächlich ein Fehler sein.

Ja, dort ist "Index Distribution" EINgeschaltet. Die ganze Geschichte ist aber erst ein paar Tage alt. Ich konnte auch direkt nach dem Crawlen und indexieren(?) die Wörter auf der Seite mit der Suche nicht finden.

Wieauchimmer: ich werds erstmal noch einmal probieren ... (und dabei die "Index Distribution" AUSschalten).

Der Crawler crawlt die Site nicht nochmal. Wahrscheinlich hatte ich beim ersten Mal "Re-crawl known URLs" auf 3 Monate gesetzt oder sowas. Habe zwar unter "Crawl Profil Editor" diesen Crawl gelöscht, aber er weigert sich, die Site neu zu crawlen. Gibts irgend ein Mittel, den Crawler wieder auf die Site zu zwingen?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon Orbiter » Mi Feb 25, 2009 10:52 pm

die re-crawl Option hat _keine_ Wirkung in die Zukunft! Es entscheidet lediglich, ob eine angetroffene URL im Double-Check raus fliegt. Wenn man die Option nicht an macht, fliegt jede doppelt vorkommende URL raus. Wen man die Option an macht, wird geprüft ob die eingestellte re-crawl Zeit _kürzer_ als das Alter der doppelt vorkommenden URL ist. Wenn ja, wird die URL wieder geladen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Indexer indexiert nicht: "double errors)"

Beitragvon segler » Do Jul 16, 2009 12:14 pm

Das mit den DOUBLE ERRORS hab ich allerdings auch.

Vorweg um zu klären ob das Problem vor oder hinter der Tastatur sitzt:
- Yacy läuft auf "Intranet Indexierung"
- Im Repository Directory ist ein HTML File mit einem Link drin, der auf einen anderen Intranetserver auf eine Seite zeigt, mit ganz vielen Links drin,
die ihrerseits dann zu den entsprechenden Zielen (da sind sie dann, die im anderen Threat erwähnten .doc files ;-> ) zeigen.
- Ergebnisse gelöscht (CrawlResults)
- Indizes gelöscht (.../IndexControlURLs_p.html, 100 geholt und deleted)
=> Datenbank sollte so leer sein wie es nur geht. Ist auch nicht so schlimm, da Testsystem

- Crawlerei gestartet mit Filter .*
=> DOUBLE ERRORS


Nicht ganz so politisch korrekt ist die Einstellung auf "Eigene Internetseiten", die vom Kunden hier verwendete TLD in den Source mit einpflegen, das Ganze compilieren und feststellen, dass es in der letzten Version noch wo anders hakt. Da soll der Trend eigentlich weg gehen davon... doch das nur am Rande

Mach ich da irgendwas falsch oder gibts da tatsächlich ein Thema?

Viele Grüße

Michael
segler
 
Beiträge: 11
Registriert: Do Apr 16, 2009 2:36 pm

Re: Indexer indexiert nicht: "double errors)"

Beitragvon Orbiter » Do Jul 16, 2009 12:20 pm

könnte sein dass bei deiner Löschart noch eine Info vom Crawler übrigbleibt. Geh mal auf
Index Administration -> Cleanup -> Delete Index.
Danach darf es dann wirklich keine Doubles mehr geben.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Indexer indexiert nicht: "double errors)"

Beitragvon segler » Do Jul 16, 2009 12:49 pm

ah, VOR der Tastatur. Thx, tut. Keine Double Errors mehr.
Dafür bin ich nochmal im anderen Thread...

-Michael-
segler
 
Beiträge: 11
Registriert: Do Apr 16, 2009 2:36 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron