Cleaner Reihenfolge

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Cleaner Reihenfolge

Beitragvon henschi » Sa Jan 24, 2009 8:31 pm

Welchen der beiden Cleaner(RWI, URL) sollte man eigentlich als ersten starten oder ist es egal?
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel

Re: Cleaner Reihenfolge

Beitragvon thq » Sa Jan 24, 2009 8:39 pm

Wenn überhaupt würde ich nur den URL Cleaner starten, bei einer großeren Blacklist sind die RWIs sowieso wieder schnell voll mit nicht mehr vorhandenen URLs. Der RWI Cleaner dauert einfach zu lange, da ist das verteilen der Daten, was zwar auch langsam ist Sinnvoller ;)

Wenn es aber unbedingt sein muss mit der URL-DB anfangen. Lohnt sich aber nur wenn sich die Blacklist im laufe der Zeit geändert hat so das dadurch vielleicht ein paar URLs rausfliegen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Cleaner Reihenfolge

Beitragvon henschi » Sa Jan 24, 2009 8:51 pm

Der Text vom RWI-Cleaner suggeriert mir etwas anderes. :-(
RWI-DB-Cleaner - Clean up the database by deletion of words with reference to blacklisted urls:

Da habe ich raugelesen, wenn ich zuerst den URL Cleaner starte bringt der RWI-Cleaner nichts mehr.
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel

Re: Cleaner Reihenfolge

Beitragvon thq » Sa Jan 24, 2009 9:05 pm

Also der URL-Cleaner löscht die URLs die durch die Blacklist geblockt werden, ob es noch mehr Situationen gibt wodurch ein URL gelöscht wird weiß ich jetzt nicht.

In den einzelnen RWIs sind ja nun alle URL-Hashes gespeichert, mit jedem Hash wird jetzt die URL-DB abgefragt und wenn die URL nicht mehr vorhanden ist wird dieser URL-Hash aus dem RWI entfernt.

Deswegen ist es auch besser erst mit der URL-DB anzufangen, sonst wurde man wieder selber dafür sorgen das es RWIs gibt mit Hashes von URLs die wir zuvor ja gelöscht haben.

Wenn Du recht hast ist ja eigentlich der URL-Cleaner überflüssig.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Cleaner Reihenfolge

Beitragvon henschi » Sa Jan 24, 2009 10:54 pm

Warum soll denn der URL-Cleaner über flüssig sein?

Wenn ich den Quelltext richtig verstehe, dann wird der URL Hash vom RWI entfernt, wenn die URL nicht mehr existiert oder auf der Blacklist ist. Wenn dem wirklich so ist, dann würde es ausreichen den RWI CLeaner anzuwerfen, denn die Referenzen zu Blacklisteinträgen wären dann gelöscht.

Ist dem so? :-)
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast