Crawler mit Remote-Indexierung

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawler mit Remote-Indexierung

Beitragvon PCA42 » Sa Okt 23, 2010 3:42 pm

Wenn ich die Remote-Indexierung anstelle, werden alle URLs der tiefsten Ebene im Limit Crawler gesammelt. Von dort werden sie an andere Peers oder, wenn keine eigenen lokalen Aufträge vorhanden sind, dem eigenen Peer zum Erledigen übertragen. Wenn ich lokale URLs abarbeite, arbeitet dort ein Balancer mit, der die Reihenfolge der URLs im Hinblick auf Delays optimiert.

Wird dieser Verfahrensweise auch angewendet, wenn URLs aus dem Limit-Crawler entnommen werden? Also direkt bei entnehmen?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Crawler mit Remote-Indexierung

Beitragvon Orbiter » Sa Okt 23, 2010 6:24 pm

Ja, aber: der Balancer hat 2 Aufgaben:
1) möglichst über Targets streuen
2) bei 'Abgabe' einer URL die Zeit von der letzte Ablieferung einer url einer bestimmten Domäne bis zur neuen Abgabe der nächsten URL der gleichen Domäne feststellen und wenn notwendig zwangsweise eine Pause bei der Ablieferung einlegen.

bei einer Ablieferung von remote Crawl URL wird der 2. Punkt nicht durchgeführt. Das wird ja dann im remote Peer gemacht. Wenn man hier die Zwangspause machen würde, dann könnte es passieren dass der abliefernde Peer nicht genügend viele verschiedene Domänen kennt und die Summe der Zwangspausen würde das Time-Out des Request zum Abfragen der Remote Crawl URLs übersteigen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste