ddc und double_push_check in Balancer

Forum for developers

ddc und double_push_check in Balancer

Beitragvon flori » Do Apr 28, 2011 3:53 pm

Hallo,

ich verstehe nicht den Unterschied zwischen ddc und double_push_check in de.anomic.crawler.Balancer.

Wofür ist ddc und was bedeutet die Abkürzung?

Was in urlFileIndex gespeichert wird ist mir auch nicht klar.

Viele Grüße,
Florian
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: ddc und double_push_check in Balancer

Beitragvon Orbiter » Fr Apr 29, 2011 1:53 am

flori hat geschrieben:ich verstehe nicht den Unterschied zwischen ddc und double_push_check in de.anomic.crawler.Balancer.

Wofür ist ddc und was bedeutet die Abkürzung?

du wirst es nicht glauben aber ich weiss es nicht mehr. Mir ist auch schon aufgefallen dass da irgendwas redundant ist. Aber ich hab erst mal nichts dran geändert nach dem Motto never change a running system.
flori hat geschrieben:Was in urlFileIndex gespeichert wird ist mir auch nicht klar.

Der ist allerdings wichtig, das ist der eigentliche Crawl Stack. Teile des Stacks werden gelesen und entsprechend der Domäne auf die Einzelstacks der domainStacks verteilt. Beim Lesen des domainStacks wird dieser einmal 'flach' abgemäht und die URLs dann in die top-Liste geschrieben. Aus dieser wird beim Lesen aus dem Balancer eine URL gezogen, bis diese top-Liste leer ist, dann wird sie wieder aus dem domainStack gefüllt. Wenn dieser leer ist wird wieder aus dem urlFileIndex gelesen.
Die delayed-Liste wird gefüllt wenn beim Lesen aus der top-Liste festgestellt wird dass die minimum Delay Zeit unterschritten wurde. Entsprechend wird wieder ein Eintrag aus der delayed-Liste gelesen wenn die minumum delay Zeit überschritten wird.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron