starker Verlust an Words

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

starker Verlust an Words

Beitragvon miTreD » Di Jan 22, 2008 12:37 pm

Merkwürdig, oder?
http://www.yacystats.de/peer/RGuxwOgQpNZY,week.html
http://www.yacystats.de/peer/9Sx6H46e8xQi,week.html
Einzige Änderung war das Update auf eine SVN-Version mit diesen Eco-Tabellen. Kann der Verlust damit zusammenhängen?

edit:
Ich bin nicht der Einzige:
http://www.yacystats.de/peers_words.html
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: starker Verlust an Words

Beitragvon thq » Di Jan 22, 2008 1:09 pm

SVN 4349 sucht nach doppelten DB-Einträgen, ich vermute mal das diese gelöscht wurden.

- added index consistency check (checks for double-occurrences of primary keys in file)
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: starker Verlust an Words

Beitragvon Orbiter » Di Jan 22, 2008 3:55 pm

aha, hätte nicht gedacht das das so durchschlägt. Ja das hat nicht direkt was mit den eco-tables zu tun, sondern nur damit das ich mir die routine zum Index-Neuaufbau nochmal genau angeschaut habe, und aufgrund von sehr strengen asserts in den eco-tables darauf aufmerksam wurde das in den collections doppelte Wort-Vorkommen sind. Die mussten beim Einarbeiten in den Index rausfliegen, und daher gibts dazu nun in allen Tabellenarten double-entry Sammelfunktionen. Hier müssen alle collections bis auf eine raus fliegen. Ich habe da den Algorithmus noch nicht ganz fertig, es fliegen momentan nur die kleineren collections raus. Sie werden aber _nicht_ gelöscht, sondern nur aus dem Index ausgenommen. Was man hier machen muss ist eine Konsolidierung der gefundenen doppel-Einträge, das kommt dann noch nach.

Ursache der doppelten Vorkommen ist wohl, das gelöschte collections nicht wirklich gelöscht werden, sondern nur als gelöscht markiert werden indem sie im Index nicht mehr referenziert werden. Bei einem Index-neuaufbau kommen sie dann wieder rein, und werden wohl weiter gefüllt, dabei liegt aber dann ein anderer Slot brach. Das tolle ist: es ist nie irgendwann ein Index verloren gegangen, die müssten alle noch in den Collections rumliegen, sie müssen nur noch wieder konsolidiert werden.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste