Index verkleinern

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Index verkleinern

Beitragvon henschi » Mi Mär 30, 2011 12:54 pm

Hallo in die Runde

Ich würde wieder einmal meinen Index verkleinern wollen. Leider finde den Wiki oder Forum Eintrag nicht mehr, wo mal so etwas stand.
Was kann man löschen, um zum Beispiel die ältesten Links zu löschen oder wie macht ihr das?

Grüße aus Potsdam
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel

Re: Index verkleinern

Beitragvon cfr34x » Do Mär 31, 2011 10:55 am

Hallo henschi,

auch ich habe keinen Wiki-Eintrag dazu finden können, deshalb hier ein Shell-Skript, das ich mir mal gebastelt hab (die Pfade im $CLASSPATH gelten für eine Installation per debian-Paket und müssen angepasst werden). Das Skript löscht alle nicht verwiesenen Einträge aus der URL-DB.

Code: Alles auswählen
#!/bin/bash

CLASSPATH="/usr/share/java/yacy/yacycore.jar:/usr/share/java/yacy/jcifs-1.3.14.jar"
METADATA=INDEX/freeworld/SEGMENTS/default
RICELL=INDEX/freeworld/SEGMENTS/default

MAX_MEM="2000m"
JAVA_ARGS="-Xmx$MAX_MEM -Xms$MAX_MEM -Xmn300m -server -cp $CLASSPATH de.anomic.data.URLAnalysis"

echo Gathering data...
java $JAVA_ARGS -incell "$RICELL" used.dump
java $JAVA_ARGS -diffurlcol "$METADATA" used.dump diffurlcol.dump

echo Exporting URLs ...
java $JAVA_ARGS -export "$METADATA" html urls.html diffurlcol.dump

echo Read only operations finished. Ready to delete URLs.
echo Press Enter to DELETE the URLs!
read

java $JAVA_ARGS -delete "$METADATA" diffurlcol.dump


Das Ganze hilft natürlich nur, wenn vorher eine ensprechende Menge an URLs dir DHT-out unnötig geworden ist.

Ich hoffe, dass dir das weiterhilft.

Viele Grüße
Thomas
cfr34x
 
Beiträge: 49
Registriert: Sa Jan 31, 2009 6:24 pm

Re: Index verkleinern

Beitragvon henschi » Sa Apr 02, 2011 4:01 pm

Sieht ja spannend aus, Danke. ;-) Da ich den Peer nur noch mit DHT OUT laufen lassen kann,müssten eigentlich solche nicht referenzierten URLs vorhanden sein.
Hast du Erfahrungswerte wie lange so dauert?

Hm, warum gibt es so etwas eigentlich nicht unter http://localhost:8080/IndexCleaner_p.html oder versteckt sich die Funktion woanders?
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel

Re: Index verkleinern

Beitragvon cfr34x » Sa Apr 02, 2011 5:33 pm

henschi hat geschrieben:Sieht ja spannend aus, Danke. ;-) Da ich den Peer nur noch mit DHT OUT laufen lassen kann,müssten eigentlich solche nicht referenzierten URLs vorhanden sein.
Hast du Erfahrungswerte wie lange so dauert?

Also, das letzte mal, als ich das gestartet habe, war mein Peer bei ca. 13 Mio. URLs und 8 Mio. RWIs. Davon wurden dann ca. 1,5 Mio. URLs gelöscht, soweit ich mich erinnern kann.
Das ganze hat so ca. 3-4 Stunden gedauert (die meiste Zeit war er mit dem "-incell"-Befehl beschäftigt).

henschi hat geschrieben:Hm, warum gibt es so etwas eigentlich nicht unter http://localhost:8080/IndexCleaner_p.html oder versteckt sich die Funktion woanders?

Ich wüsste nicht, dass die Funktion so einfach zugänglich wäre. Im Menü ist sie wohl nicht, weil man YaCy sowieso beenden muss, um sie auszuführen.
cfr34x
 
Beiträge: 49
Registriert: Sa Jan 31, 2009 6:24 pm

Re: Index verkleinern

Beitragvon henschi » Mi Mai 04, 2011 9:08 pm

Tja, nix mit Stunden, sondern 8 Tage hat es gedauert. :-(
Danach sind 12 von 20 Millionen URLs entfernt worden. So weit so gut, aber zu empfehlen ist das von meiner Seite leider nicht wirklich.
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron