Balancer

Ideen und Vorschläge sind willkommen.

Balancer

Beitragvon iqualfragile » So Jan 29, 2012 12:58 pm

Mir wurde gesagt der Crawl würde noch nicht optimal über die domains in der warteschlange verteilt werden (was zuzutreffen scheint, da ich ca 30.000 seiten in der warteschlange hab (unterschiedlichste domains) und irgendwo zwischen 3 und 30 ppm schwanke), also hab ich ein wenig überlegt wie man das problem angehen könnte:

man hat eine hashmap die die adresse des server als index verwendet (forum.yacy-websuche.de)
diese beinhaltet ein liste (fals tatsächlich mehrere adressen auf einen hash kommen) welche wiederum eine oder mehrere listen mit den tatsächlich zu crawelnden urls beinhaltet

gute/schlechte idee?
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm

Re: Balancer

Beitragvon Lotus » So Jan 29, 2012 10:36 pm

Hier steht, dass das alles schon implementiert ist, und wo man das nachlesen kann:
http://bugs.yacy.net/view.php?id=95#c269
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron