svn6811 cacheflush 'kleinstBlobs'

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

svn6811 cacheflush 'kleinstBlobs'

Beitragvon sixcooler » Do Apr 15, 2010 5:20 pm

Hallo,

mit svn6811 wird nun alle 10Min der cache geflushed.
(den Grund habe ich leider auch noch nicht vollständig verstanden)

Für mich als kleinst-Peer-nutzer ergibt sich daraus das auch kleine mengen an RWIs
geflushed werden und sehr kleine Blobs gemerged werden.

Das mergen erscheint mir leider sogar länger zu dauern als zuvor
(ohne das ich mir das erklären könnte).

Wäre es nicht auch ok, wenigstens z.b. 3000 RWIs abzuwarten wie auch beim flush
aus Speicherknappheit?

cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: svn6811 cacheflush 'kleinstBlobs'

Beitragvon Orbiter » Do Apr 15, 2010 10:51 pm

die Ursache für die Idee, nach festem Zeitschema zu flushen kommt aus der Verwendung eines testservers den ich geschrieben habe um den Crawler mal fett auszulasten und zu testen. Der Testserver bietet millionen von virtuellen Dokumenten an, die nicht wirklich existieren sondern nur mit Hilfe von vorgegebenen Texten mit Zufallsgeneratoren erzeugt werden. Der Effekt ist dann dass es einen begrenzten Wortschatz gibt, der beim Crawlen den RWI cache nicht weiter in der Anzahl der Dokumente aber in der Anzahl der Referenzen anwächsen lässt. Da aber nur die Anzahl der Wörter für den Flush gemessen werden, wird nie mehr geflusht was ja nur mit einem OOM enden kann. Da mein Test mit 10000 PPM performt darf es nicht so lange dauern bis zum Flush, daher diese Methodik.

Wie auch immer, wir machen ja hier quasi 'Forschung' und da muss man sehen dass dies eben auch nur eine weitere Versuchsanordnung war. Entweder ich mache es so wie du vorgeschlagen hast (mit dem Problem dass bei bestimmten Versuchaufbauten bei Wortschätzen unten 3000 Wörtern das OOM Problem wieder besteht) oder mir oder dir fällt noch was anderes ein.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: svn6811 cacheflush 'kleinstBlobs'

Beitragvon sixcooler » Fr Apr 16, 2010 1:10 am

Von 10000ppm hab ich keine Ahnng, aber greift bei dieser Versuchsanordnung der
flush aufgrund MemoryControl.request nicht?
(dieses wird ja zusätzlich zur Wortanzahl geprüft)

Ich bin ja immer noch der Meinung das darin AverageGCFree zu 'ungenauen' ergebnissen
führt und subtrahiere daher derzeit ~5MB/min. (seit lastGC).

Ob nach 10Min bei >0 oder >3000 Worte geflushed wird können wir ja auch davon
abhängig machen ob es noch weitere gibt, die wie ich super kleine Blobs erzeugen
und mergen.

Diese könnten könnten sich ja hier mal melden - dann committe ich das einfach mal.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: svn6811 cacheflush 'kleinstBlobs'

Beitragvon dulcedo » Sa Apr 17, 2010 8:02 am

Ich sehe hier das Problem dass es bei längerer Laufzeit zu viele Dateien werden, er merged sie bei mir erst wieder bei einem Neustart. Dabei bewältigt er dann aber max. 200-300 blobs, den Rest muss ich aus/einlagern oder löschen.

Ansonsten funktioniert 6817 gut, der RWI-Überlauf kommt allerdings immer noch sporadisch vor. Ein auffälliger Fall war crawling mit 20ppm (er verdoppelt die Werte neuerdings nach submit) und dann ein Überlauf nachdem ich auf 2000ppm umgeschaltet hatte.
Diesen übergelaufenen Puffer kann ich auch nicht durch Veränderung der Puffergrösse beeinflussen, normal sollte er dann doch flushen? Ich muss den peer aber neustarten sonst dann bei mehreren hunderttausend RWIs ein OOM.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: svn6811 cacheflush 'kleinstBlobs'

Beitragvon Orbiter » Mo Apr 19, 2010 7:33 pm

sixcooler: hab deinen Vorschlag (Grenze bei 3000) eingebaut.
dulcedo: ppm-Verdoppler hab ich gefixt
SVN 6519 bzw 6520

Überlauf: kann ich momentan bei meiner Testanordnung nicht nachvollziehen, muss mir da was neues überlegen. Ich will auch noch das Testprogramm veröffentlichen, bin da noch dran. Ich will das Ding als GIT Repository frei geben, vielleicht denkt ihr schon mal darüber nach wie ihr GIT in eure Entwicklungsumgebung bekommt. Für mich ist das auch neu, daher kann ich da keine Ratschläge geben.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste