Größe des Index beschränken - wie?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Größe des Index beschränken - wie?

Beitragvon whitecloud » Di Dez 23, 2008 5:15 pm

Hallo,

ich habe seit DEM c't Artikel eine yacy Installation auf meinem "immer an" Wohnzimmerrechner. Das Problem ist, dass mit zunehmender Größe des Index yacy immer instabiler und vor allem das System immer langsamer wird.
Bei meiner kleinen Kiste kippt das bei ungefähr 10 Mio Links. (ca. 80GB Indexvolumen). Nun wäre es gut die Größe des Index zu beschränken. Selbst wenn ich aber die Indexierung per Proxy ausschalte wächst der Index ja durch die P2P Indextransfers weiter.

Wie kann ich weiterhin Teil des öffentlichen P2P Netzes bleiben und trotzdem vermeiden, dass der wachsende Index meine Kiste "platt" macht?!

Gruß lexA (aka whitecloud)
whitecloud
 
Beiträge: 38
Registriert: Mi Nov 05, 2008 4:24 pm

Re: Größe des Index beschränken - wie?

Beitragvon Lotus » Di Dez 23, 2008 6:15 pm

Falls es dir vornehmlich um den Platzbedarf geht habe ich ein paar Vorschläge:
1) In der aktuellen (non-release) Version index.storeCommons=false setzen (/ConfigProperties_p.html)
und DATA/INDEX/<netz>/TEXT/RICOLLECTION/collection.0028.commons löschen. Diese Daten sind ausgelagert und werden nicht mehr genutzt.
2) DATA/HTCACHE löschen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Größe des Index beschränken - wie?

Beitragvon whitecloud » Di Dez 23, 2008 9:06 pm

hallo,

Danke für die Tipps. Leider ist nicht der Platz das Problem, sondern die IO (?) Performance. Ab ca. 10 Mio Links wird die komplette Kiste unbenutzbar (ist nur ein Mac Mini mit externer Platte).
whitecloud
 
Beiträge: 38
Registriert: Mi Nov 05, 2008 4:24 pm

Re: Größe des Index beschränken - wie?

Beitragvon Low012 » Mi Dez 24, 2008 11:32 am

Was du außerdem machen kannst: keine remote Crawls annehmen, eingehenden Indextransfer ausschalten

Das sollte beides den IO etwas reduzieren.

Wenn du eingehenden Indextransfer deaktivierst, wird aber auch die globale Suche ausgeschaltet. Du kannst aber mal probieren, in Zeiten in denen du YaCy sowieso nicht nutzt, eingehenden Indextransfer auszuschalten und nur ausgehenden Indextransfer zu gestatten, um Daten los zu werden.

Beide Einstellungen sind auf http://localhost:8080/ConfigNetwork_p.html zu finden.

Was du auch noch tun kannst und was IO sparen sollte: Selbst keine Indexdaten verschicken. Das wäre allerdings schade, weil dann die Inhalte von deinem Peer sich nicht über das Netz verteilen würden.

Was ich nicht ausprobiert habe und was natürlich ein ganz böses Umgehen der Idee, dass wer global suchen möchte, auch was fürs Netzwerk tun soll (Daten annehmen), ist, eine Blacklist anzulegen und dort .* als zu filternde Adresse anzugeben. Dann die Liste nur für DHT aktivieren und alle Versuche, dir was zu schicken, sollten abgelehnt werden. Wie gesagt, habe ich selbst nicht getestet und gewollt ist das eigentlich auch nicht, aber das wäre auf jeden Fall besser, als wenn du deinen Peer abschalten musst.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Größe des Index beschränken - wie?

Beitragvon Orbiter » Do Dez 25, 2008 3:11 am

okok überredet, ich baue mal eine Platzbegrenzung.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Größe des Index beschränken - wie?

Beitragvon whitecloud » Do Dez 25, 2008 4:24 pm

Hallo,

die Idee den eingehenden Index-Transfer abzuschalten wäre genau mein Ding. Dann wäre auf meiner Kiste das was ich selbst crawle und was ich natürlich auch gern anderen zur Verfügung stelle (ausgehender Index Transfer ist kein Problem). Allerdings, wie Du schon sagst, dann ist die Möglichkeit der globalen Suche hin und das ist Mist.

Noch besser wäre sicher, wenn die von orbiter im "Small Yacy Machine" vorgeschlagene Index Begrenzung mit einem Algorithmus "lösche älteste Indexteile zuerst" implementiert würde. Mann müsste eben einstellen können "max. 8Mio Links, lösche Älteste zuerst"...

... das wäre Klasse!
whitecloud
 
Beiträge: 38
Registriert: Mi Nov 05, 2008 4:24 pm

Re: Größe des Index beschränken - wie?

Beitragvon ribbon » Do Dez 25, 2008 7:19 pm

- remote crawls sollten immer durchführbar sein, auch wenn der Plattenplatz begrenzt ist und knapp wird.
- bitte die ältesten urls nicht löschen, sondern nur die ältesten, die schonmal in den DHT gesandt wurden
- kann man nicht den platz schaffen, indem der DHT out verstärkt wird und nachdem 3 mal versandt wurde
- Plattenplatz default bitte 1 GB, mit Option dieses zu begrenzen oder zu wachsen. wachsen zu können default on
- schaut mal im offsystem.sf.net die haben das gleiche gemacht, bevor gelöscht wird, wird in den DHT vertrieben.
- bzw löschen kann man da garnicht, da wird nur vertrieben in den DHT. Daher dauert das Löschen auch und es muss daher eine Anzeige geben, denn der Plattenplatz auf 90 % zu gehen, dass dann die DHT out Bandbreite verstärkt wird (wenn die ebenso imitiert ist, dann mehr 1 KB/s DHT in und 3 KB/s DHT out, stat 2:2.
- Wichtiger als der Plattenplatz ist der Bandbreiten-Limiter, 2 KB/s in und out für den DHT und 1 KB/s für remote crawls.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Größe des Index beschränken - wie?

Beitragvon Lotus » Do Dez 25, 2008 8:19 pm

Platzbegrenzung haben wir im Moment invers eingebaut. Über disk.free kann der freie Speicher eingetragen werden. Zuerst wird Crawling, dann DHT-in deaktiviert.
Wie wäre ein Seed-Flag "zu wenig Platz", sodass der Peer trotzdem (unabhängig der Robinson-Regel) in die globale Suche einbezogen wird?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron