Trennung beim Word-Cache wieder herstellen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Trennung beim Word-Cache wieder herstellen

Beitragvon PCA42 » Di Mär 10, 2009 9:40 pm

Nachdem im Augenblick alle RWIs für DHT-Out von der Festplatte gelesen werden, ist es da vielleicht möglich, den Word-Cache wieder aufzuteilen?
Eine Teil für den DHT-In und eine Hälfte für die gecrawlten RWIs. Das hätte dann zur Folge, das der Crawler den DHT-In-Cache nicht vollschreibt und so DHT vielleicht besser funktioniert (weniger Busy-Meldungen). Auch könnte man vielleicht beim Cache-Flush den DHT-In-Cache vorrangig leer machen. Das sollte für einen größeren DHT-Durchsatz im gesamten Netz sorgen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Trennung beim Word-Cache wieder herstellen

Beitragvon Orbiter » Di Mär 17, 2009 11:37 pm

Ich wollte hierauf erst antworten, wenn es wieder etwas zum Vorzeigen gibt. Dein Vorschlag klingt auf den ersten Blick ja eigentlich vernünftig, nur ist es so dass ich an einer ganz neuen Datenstruktur arbeite:
http://www.yacy-websuche.de/wiki/index.php/Dev:Segments
Ein Kernelement davon sind die IndexCell Verzeichnisse, die einer Sammlung von gedumpten IndexCaches gleich kommen. Um den ersten Schritt zu gehen, wollte ich das Caching erst mal vereinfachen. Wenn es dann die Segmente gibt, dann kann man einzelne Segmente bestimmen, die die DHT-in Daten bekommen, und welche, die die DHT-Out Daten haben, und solche, die die eigenen DHT-Daten (die dann versendet wurden) spiegeln. Dann wären alle Wünsche erfüllt, und ganz 'nebenbei': die IndexCell machen fast kein IO!
Erster Schritt: SVN 5724 (ein großer Schritt, arbeite ich nun seit Januar dran)
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Trennung beim Word-Cache wieder herstellen

Beitragvon PCA42 » Mi Mär 18, 2009 5:46 am

Hab auch schon ungeduldig gewartet. ;)
Bei mir im Log halten sich derzeit Busy und erfolgreich versendete Daten die Waage. Ich vermute dabei als Ursache den sehr gut laufenden Remote-Crawler, da fast alle Peers fleißig crawlen. Damit ist der DHT-Puffer fast immer voll. Wenn die von dir beschriebene Aufteilung im Rahmen der IndexCell-Struktur möglich ist, wär das auch gleich noch ein Schritt für noch weniger IO. Denn auf diesem Weg kann ich ja beim Crawlen die Daten zum Versenden gleich aussortieren.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste