Simultan Lokal und Remote Crawlen

Ideen und Vorschläge sind willkommen.

Simultan Lokal und Remote Crawlen

Beitragvon Phiber » Mo Dez 05, 2011 8:50 pm

Etwas was mir in den letzten Tagen aufgefallen ist, ist dass der lokale und remote crawl sich gegenseitig ausschliessen.

Dies ist speziell schade wenn man beim lokalen Crawl nur Links einer begrenzten Anzahl Domains ( oft sogar nur von einer ) übrig hat, wodurch die Crawlgeschwindigkeit natürlich sehr begrenzt ist. Wäre es möglich den LoadBalancer sowohl mit lokalen und remote Links zu füllen?

Das ganze tritt ja auch auf wenn es lokal eigentlich nichts mehr zu crawlen gäbe bei einem Auftrag mit remote-indexierung ( keine Links <= Tiefe N-1 mehr ), aber noch globale Links übrig sind ( mit Tiefe N ), welche dann von der globalen in die lokale Queue geschoben werden.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Simultan Lokal und Remote Crawlen

Beitragvon Phiber » Do Dez 15, 2011 11:37 am

Der Grund für meinen ersten Post, den ich jetzt wieder sehe, war ja hauptsächlich die massive unterschiedliche Geschwindigkeit zwischen Local Crawl und Remote Crawl.

Ein lokaler Crawl, selbst mit vielen unterschiedlichen Domains läuft meist mit 3-10 PPM, also eigentlich gar nicht richtig. Wenn ich auf Remote Crawling wechsle ( lokalen Crawl anhalten und lokale crawlliste muss man leider zuerst löschen dazu ), gehts ab mit im Schnitt gut 4000-5000 PPM ( obwohl die Einstellungen eigentlich noch deutlich darunterliegen ).

Klar verstehe ich, dass ein lokaler Crawl sehr viele Links zuerst aussortieren muss, weil sie schon im Crawler sind, und gegen den Filter abgecheckt werden müssen, usw. Während ein remote crawl ja nur den einen Link crawlt und die Resultate an den Auftraggeber zurücksendet.

Trotzdem entsteht halt der Eindruck, dass mit dem lokalen Crawler etwas nicht in Ordnung ist, und vielleicht ist ein solcher Fehler für einen der Entwickler ganz einfach zu erkennen nur durch den Vergleich zwischen den beiden Crawler-systemen, angenommen diese nutzen unterschiedliche Funktionen.

Oder ist die Blockade des ganzen lokalen Crawls die Einspeisung der indexierten Resultate in den Index, was ein Falschenhals sein kann?

Edit: Ja ich verstehe, dass eine einzelne Domain nur mit einem min_delta von 500ms gecrawlt werden kann. Aber 1/0.5 * 60 = 120. Selbst wenns nur die Hälfte davon is, is mehr als nur 3 PPM. Und wie erwähnt hatte meine lokale Queue, inklusive der jeweiligen kleinen Loader-Liste meist verschiedene Domains. Klar ist auch, dass man zu einer Webseite eine sehr schlechte Latenz haben kann, aber das zog sich auch über Tage hinweg durch, von Beginn an. Bei einem Crawl mit hunderten verschiedener Domains.
Zuletzt geändert von Phiber am Fr Dez 16, 2011 7:11 am, insgesamt 1-mal geändert.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Simultan Lokal und Remote Crawlen

Beitragvon Orbiter » Do Dez 15, 2011 11:39 pm

der remote crawler sammelt von anderen Peers links auf die auch schon balanced sind und das über mehrere Peers. Das bedeutet meist dass du damit sehr viele verschiedene Domänen in die queue bekommst die sich ohne Wartepausen laden lassen. Den gleichen Effekt hast du auch lokal wenn du sehr breit crawlst und viele verschiedene Domänen in der Queue hast.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast