RWI-Cache und Gesamt-Index

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

RWI-Cache und Gesamt-Index

Beitragvon PCA42 » Sa Jun 06, 2009 5:28 am

Mich würde interessieren, ob der RWI-Cache immer aktuell in den Gesamt-Index eingehängt ist. Wird der bei jedem hinzufügen eines RWI aktualisiert? Weil das würde gerade beim Crawlen eine erheblichen Aufwand bedeuten.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI-Cache und Gesamt-Index

Beitragvon Quix0r » Di Jun 16, 2009 2:34 pm

Ich glaube, der Cache bleibt solange im RAM, bis er voll ist und wird dann in eine seperate Blob geflusht. Anschliessend sollte er gemergt werden, um die Anzahl Dateien niedrig zu halten. Und ja, der Cache (RAM ist sehr performant) wird bei jedem gefundenen (= indexierten) RWI aktualisiert, so soll es ja auch sein. Dann kann sehr einfach der Cache geflusht werden.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: RWI-Cache und Gesamt-Index

Beitragvon Orbiter » Di Jun 16, 2009 3:03 pm

genau so ists. Irgendwo müssen neue RWIs ja hin, und dazu braucht es eben ein Cache. Genau den RWI-Cache.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI-Cache und Gesamt-Index

Beitragvon Quix0r » Di Jun 16, 2009 3:21 pm

Noch Anmerkungen von mir:
- Bei wenig RAM (4 GB habe ich) und lahmer Platte (kein RAID) solltest du den RWI-Cache sehr klein einstellen. Ich habe hier 2,8 GB RAM den Java-Prozessen gegeben und hab 4.000 Einträge RWI-Cache.
- Der RWI-Cache wird somit "haebchenweise" auf die Platte geschrieben - weshalb du auch bei lahmer Umdrehungszahl wenig einstellen sollst - und ein Index dazu generiert. Der Merger-Task greift diesen auf und mergt dann.
- Du kannst auch den RWI größer machen (100.000 und mehr). Dann ist YaCy performanter, aber braucht deutlich mehr RAM! Du solltest dann - meiner Schätzung nach - dann ab 10 GB RAM haben. Aber dann wird auch mehr geflusht -> RAID wird dann empfehlenswert, um gegen die IO-Last anzukommen.

Auch wenn jetzt einiges redudant geschrieben wurde, steht nun alles beisam. :geek: :mrgreen:
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: RWI-Cache und Gesamt-Index

Beitragvon Phiber » Di Jun 16, 2009 3:36 pm

Da muss ich mich jetzt aber einhacken und nochmals fragen wegen der Cache-Grösse.

Durch den neuen Balancer ist auch ein 100k Cache in kürzester Zeit voll, also locker alle 60s oder schneller. Man sieht ja im Performance-Graph sehr schön wie steil die Zick-Zack Kurve vom RWI-Cache ist.
Sehr viel RAM scheint ein so grosser Cache nicht zu brauchen, die Indexgrösse macht viel mehr aus.

Aber was ist denn nun besser? Sagen wir alle 20s nen Flush, weniger Ram und kleinerer Flush dafür öfter, oder eher so alle 5min durch nen grossen Cache?

Wenn der Balancer noch seine Macken raus hat wird das ganze ja noch extremer dann.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: RWI-Cache und Gesamt-Index

Beitragvon Orbiter » Di Jun 16, 2009 3:56 pm

also ein 100k RWI Cache braucht schon ein paar Megabyte, aber keine Gigabyte an RAM. Ich sehe das nicht so dramatisch. Ich würde es einfach auf 100k lassen, wenn der Speicher aus geht wird der eh schon früher geflusht.

Rechnen wir mal nach: angenommen der Crawler macht, wie momentan per default maximal möglich, 2000 PPM. Dann hast du in einer Minute 2000 Dokumente im Index. Angenommen jedes Dokument hat 500 Wörter, dann sind das 2000 * 500 = 1000000 RWI Referenzen.

Eine Referenz braucht 40 bytes! D.h. nach einer Minute sind 40MB im RAM angefüllt worden. Nun stellt sich aber die heisse Frage: wie groß ist denn der RWI Cache, gemessen in Anzahl der RWIs?

Wenn die 2000 Dokumente alle nur die gleichen 500 Wörter haben: 500
Wenn die 2000 Dokumente alle völlig verschiedene Wörter haben: 1000000

Die Anzahl liegt wohl irgendwo dazwischen, und das ist dann die Grenze wo geflusht wird. Man kann nicht genau sagen wie groß die 100k RWIs sind, ausser man misst es nach, und das ist nicht praktikabel weil es unsinnig viel CPU verbrät. Dann lieber einfach über den Daumen peilen und ausserdem flushen, wenn der Speicher knapp wird.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI-Cache und Gesamt-Index

Beitragvon PCA42 » Di Jun 16, 2009 4:29 pm

Ich glaube, meine Fragestellung war (mal wieder :oops: ) zu ungenau:
Die Blobs werden nach dem Laden über einen RAM-Index referenziert. Bei einem Merge werden zB die beiden Dateien aus diesem RAM-Index herausgenommen und dann zusammengefügt. Anschließend wird das Ergebnis wieder in dem RAM-Index ausgenommen. Wie verhält es sich in diesem Zusammenhang mit dem RWI-Cache? Ist dieser ständig in diesem RAM-Index eingebunden? Oder wird er erst nach einem Cache-Flush wie ein normale Blob-Datei hinzugenommen?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI-Cache und Gesamt-Index

Beitragvon Lotus » Di Jun 16, 2009 7:41 pm

Orbiter hat geschrieben:Ich würde es einfach auf 100k lassen, wenn der Speicher aus geht wird der eh schon früher geflusht.

Funktioniert gut. Habe ich schon oft beobachtet. (Wurde vielleicht noch nicht ausgiebig getestet.)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: RWI-Cache und Gesamt-Index

Beitragvon Quix0r » Di Jun 16, 2009 10:43 pm

Habs erstmal tesweise auf 30k hoch. reicht mir auch. :)

[ot]Hab gute Einstellungen fuer Idle-/Busy-Loops gefunden und Performance vom Proxy gesteigert. Behaltet den bitte bei.[/ot]
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron