RWI Zähler

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

RWI Zähler

Beitragvon dulcedo » Mi Mai 06, 2009 4:30 am

Der zählt bei mir teilweise falsch, zeigt seit (vor)gestern ca. doppelte Werte an. Aufgefallen bei zwei neu installierten Peers, v0.77
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Mi Mai 06, 2009 7:10 am

Die RWI liegen ja teilweise in mehreren Blobs. Und wie es aussieht werden die für jeden Blob seperat gezählt. Bei einem größeren Merge sinkt dann sogar die Anzahl. Kann man wunderbar bei yacystats nachvollziehen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon dulcedo » Mi Mai 06, 2009 7:49 am

Wenn das seine Richtigkeit hat, wunderbar. Ich hatte mich nur gewundert dass plötzlich so viele Words.
Bei den migrierenden Peers passiert das nicht.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Orbiter » Mi Mai 06, 2009 8:40 am

die ehemals verwendeten Collections liessen es zu, korrekt zu zählen. Bei der IndexCell tritt der von PCA42 beschriebene Effekt auf, und man kann tatsächlich nicht mehr korrekt zählen. Das ist einerseits blöd, aber andererseits überwiegen ja andere Vorteile. Man könnte es so machen, das man einen Index zu einem einzigen BLOB konvergieren läßt, und dann stimmt die RWI Anzahl auch wieder. Aber dafür müsste klar sein dass nicht wieder viele neue RWIs dazu kommen. Da wäre also sowas wie ein 'Finalisierungsmodus' notwenig, beispielsweise wenn man eine Portalsuche macht, und einen Crawl halt einfach abgeschlossen hat und sonst nichts mehr kommt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI Zähler

Beitragvon dulcedo » Mi Mai 06, 2009 9:30 am

Mir ist der Counter wurscht, Hauptsache YaCy findet was ich suche, und das tut er! Nur an der Datenbasis habert es noch. Aber das ist nur das Henne-Ei Prinzip: durch die Portalsuche kann man YaCy nun ein wenig bekannter machen, also ein kleines Suchfeld das irgendwo überall klebt. Ob es benutzt wird andere Frage, wichtig ist es wird gesehen und es darf icht stören. Wenn wir dann ein bischen Eier ausbrüten helfen und eine ordentliche Datenbasis aufbauen, dann wird die Sache für die Allgemeinheit interessant und die individuellen Peers kommen wieder ins Spiel.
Dann sind natürlich erstmal viele Konsumenten da, aber ich müsste mich arg täuschen wenn nicht zumindest einige dann Lust auf einen Peer bekommen, solange YaCy noch so unhandlich, danach diese Diskussion sowieso überflüssig. Sorry für den Exkurs.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon dulcedo » Mi Mai 13, 2009 3:13 am

Ich habe jetzt einen (migrierenden) Peer mit 13mio Wörtern und 50mio Links sowie einen neuen der innerhalb 2 Wochen 40mio Wörter und nur 13 mio Links gesammelt hat.
Der ältere Peer hatte vor 2 Wochen noch weit über 20mio Wörter bei selber Linkzahl.
Da kann doch irgend etwas nicht stimmen, warum z.B. wandern diese Links jetzt erst und warum dieses Missverhältnis?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon bluumi » Mi Mai 13, 2009 6:04 pm

dulcedo hat geschrieben:(migrierenden) 13mio Wörtern und 50mio Links
neuen 40mio Wörter und 13 mio Links
warum dieses Missverhältnis?


Könnte da die Ursache nicht in RiCeLL / RiCollection liegen?
Bei mir ist es nämlich "genauso" dass der grosse seit ü 6Monaten laufende Peer die Worte "verliehrt" , und der neue erst auf RiCell erstellte Peer inzwischen Wörter eingeholt hat (aber kaum Links) (25Wö / 60URL) vs. (20Wö / 9URL).
Was haben deine Peer "zu tun?" .. mein alter machte lokal Crawl, der neue nur RemoteCrawls. :?:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: RWI Zähler

Beitragvon dulcedo » Mi Mai 13, 2009 9:39 pm

Gemischt: ein paar kleinere daily-Crawls und gemächlich remote. Sie sind ja immer noch am Daten migrieren, RICELL hat jetzt ungefähr die Hälfte der Grösse von RICOLLECTION.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon bluumi » Mi Mai 13, 2009 11:23 pm

dulcedo hat geschrieben: RICELL hat jetzt ungefähr die Hälfte der Grösse von RICOLLECTION.

Kann man denn RiCell zu RiCollection "in Relation" setzte ohne umrechung? Dann währ meiner wohl schon weit bei der Migration gekommen. :)
RiCell ~50GB vs. RiCollection 81GB

Ich hab mich halt gefragt ob es zu unterschiedlichen "Ablagerungen" kommt, ob man selber die Quelle des Jobs (lokal) oder Remote ist. Und wenn du Daily's hast, so ist die URL ja wohl immer "im selben Pool", also URL nicht gross abweichend, während beim RemoteCrawl die URL Streuung auch viel viel höher ist. Und trotzdem habe ich bei dem Peer welcher bisher nur Remote Crawls gemacht hat eine kleinere URLzuWort Streuung als beim LokalCrawler, was meine eigene Interpretation wiederlegen könnte :)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: RWI Zähler

Beitragvon dulcedo » Fr Mai 15, 2009 8:41 am

Ich habe nun einen frisch aufgesetzten Peer stoppen müssen weil er nach 7 Tagen 42mio Wörter aber nur 12mio URLs gesammelt hat, und nun die 2GB RAM nicht mehr reichen. Nur DHT und Remote-Crawls mit 60ppm maximal.
Das kann nicht Sinn der Sache sein.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Fr Mai 15, 2009 2:42 pm

Wenn die Konsolidierung der RWI-Blobs wie von mir beschrieben durchgeführt wird ("kreuzen von Blobs"), sollte das auch die Anzahl der RWIs senken. Weiterer positiver Nebeneffekt: wenn die RWIs auf weniger Blobs verteilt sind, sollte auch die Suchgeschwindigkeit steigen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon dulcedo » Sa Mai 16, 2009 6:42 am

Das muss dann aber YaCy machen, ich kann das manuell nicht. Und darum geht es mir, das Szenario es setzt jemand einen Peer auf und lässt ihn mit Standardeinstellungen laufen, aus Neugier vielleicht noch einen Crawl.
So wie momentan eingestellt ist der Peer je nach RAM-Ausstattung nach recht kurzer Laufzeit nicht mehr arbeitsfähig weil zu viele Worte im Speicher.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Sa Mai 16, 2009 6:55 am

Ja, und das hoffentlich bald. Mein Peer auf dem Root-Server wird heute die 60Mio-RWI voll haben. Und das nach ca. 14 Tagen crawlen. Ich denke bei ca. 100Mio ist dann auch dort Schluss, weil der RAM (4 GB) nicht mehr reicht. Also noch ca. in 14 Tagen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon dulcedo » Sa Mai 16, 2009 7:57 am

Ich vermute unsere Peers sind zu gut angebunden/eingestellt und deshalb zu performant für den jetzigen Stand der DB.
Feine Sache, wenn ich die Möglichkeit hätte manuell einzugreife.
Aber gänzlich ungeeignet um als Neuling einen Peer aufzusetzen, da nimmt man dann eher flotte Hardware und 16/1Mbit auch nicht mehr gerade selten.
Deshalb versuche ich solche Situationen nachzustellen und mache den Installationsablauf so wie es ein Einsteiger wohl machen würde.
Noch ungeeigneter ist der jetzige Stand um einen Peer auf einen Arbeitsplatzrechner laufen zu lassen, das ist aber doch das eigentliche Ziel.
Es bringt mir nichts wenn ich sage in einem 2 Jahren lacht man über die Systemanforderungen, im Moment tut man das nicht, RAM kann ich nicht herzaubern wie alles andere.

Ergänzung: Was mich an der Sache noch wundert ist dass ein Peer den ich schon seit Oktober laufen lasse und der nun migiert seine Worte verliert. Ich habe DHT out nun abgeschaltet ansonsten wäre er wohl ihn ein paar wochen bei Null angekommen. Momentan noch 21mio Wörter bei 51mio Links. Es waren vor 0.77 noch weit über 30mio Wörter bei ungefähr gleich viel URLs.
Ich habe gestern einen Peer gestartet der nur DHT macht und Proxy indexiert, dort scheint das Verhältnis seit 14 Stunden normal zu sein: 2mio URLs und 400k Wörter gesammelt. Ich beobachte das weiter.
Zuletzt geändert von dulcedo am Sa Mai 16, 2009 8:23 am, insgesamt 1-mal geändert.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Phiber » Sa Mai 16, 2009 8:23 am

Also mein reiner Cell-Peer hat auch 0.8Mio Links bei 8 Mio Wörtern.

Wenn die Wörter wirklich so stark den Ram belasten ist das natürlich nachteilhaft. Bisher störts mich halt noch nicht.

-Was ich nid ganz verstehe, warum alle direkt nach Bug/Fehlern schreien statt einfach nach einer Erklärung. Könnte es nicht daran liegen, dass DHT doch mal verstärkt wurde (also bessere Abdeckung, vertikales DHT oder so hab ich mal aufgeschnappt), kombiniert mit der neuen Cell-Struktur welche nun die YaCy-Peers extrem schnell macht?
Also eigentlich alles wie gedacht, nun auch extrem perfomant, damit aber halt etwas über Ziel hinausgeschossen, bzw neue RAM-Probleme produzierend.

Nur so ne Idee, vielleicht hab ich aber auch nur Quark geschrieben :D
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: RWI Zähler

Beitragvon dulcedo » So Mai 17, 2009 5:49 am

Ich habe folgende Peers unter Beobachtung, 3 davon (A,B,C) sind am migrieren, die anderen laufen von Beginn an nur mit RICELL. Alle Peers haben die ganze Zeit DHT aktiviert. Alle crawlen remote (20-120ppm), A,B haben daily crawls Tiefe 3. Peer F indexiert über Proxy.

P: MURLs/MWorte (Laufzeit)
A: 51 / 22 (6m)
B: 42 / 27 (4m)
C: 20 / 17 (2m)

D: 20 / 52 (2w)
E: 13 / 42 (2w)
F: 4 / 0.7 (2t)

A,B,C würde ich als normal bezeichnen, auch was der gesunde Menschenverstand über das Vorkommen von Wörtern in Texten sagt.
Bei den letzten Dreien ist das Missverhältnis meiner Meinung nach so dass die Wortanzahl in etwa das doppelte dessen beträgt was eigentlich möglich ist. Ich kann ab einer gewissen Zahl von Seiten/Wörten nicht mehr Wörter Zählen als ich Seiten habe, oder ist das eine Eigenart der Verteilung?

Weiterhin fällt auf dass das Verhältnis bei den migrierenden Peers gleich bleibt, aber nur wenn ich DHT-out nicht aktiviert habe, mache ich das dann nimmt die Wortanzahl drastisch ab, sie werden anscheinend von Peers mit der Zellstruktur geschluckt und das habe ich heute Nacht auch bei 3 einzelnen Peers in einem Testnet nachgestellt. Ist das beabsichtigt? Dann wäre die Sache klar, würde aber zu einem Aussterben der migrierenden Peers führen. Irgendwann keine Worte mehr um nach den eigenen URLs zu suchen.

Orbiter, du sagst er zählt falsch, er belegt allerdings auch den RAM-Speicher für die falsche Anzahl, wenn sie denn falsch ist.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 18, 2009 3:02 am

Ich denke ich habe die/eine Ursache:
Standardeinstellung is DHT-out = aus, wenn Crawler aktiv. Der ist aber immer aktiv solange Remote-Crawls zum abarbeiten vorhanden sind da Remote-Crawl ebenfalls aktiv und auf 60ppm. Also sammelt er fleissig Wörter und bekommt zugeschickt, versendet selbst aber keine. Hat das grosse Nachteile wenn man in der Standardeinstellung auch beim crawlen verteilt?

Weiterhin sind immer noch 180M RAM voreingestellt, zu wenig finde ich. Ich habe das Linux-Paket 0.8 neu auf einem Win7-Desktop installiert, mal sehen wie lange er so mit der Grundkonfiguration läuft ohne dass ich irgendwie eingreife.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 18, 2009 6:51 am

Hier die erste Auffälligkeit, der Versuch mit 180M Speicher einen 100k RWI-Puffer anzulegen, die Bilder zeigen nur Remote-crawls mit 60ppm und DHT (SVN5962 frisch installiert von yacy.net).
Dateianhänge
PerformanceGraph1.png
PerformanceGraph1.png (12.26 KiB) 4475-mal betrachtet
PerformanceGraph2.png
PerformanceGraph2.png (11.92 KiB) 4475-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Lotus » Mo Mai 18, 2009 2:22 pm

dulcedo hat geschrieben:Ich denke ich habe die/eine Ursache:
Standardeinstellung is DHT-out = aus, wenn Crawler aktiv. Der ist aber immer aktiv solange Remote-Crawls zum abarbeiten vorhanden sind da Remote-Crawl ebenfalls aktiv und auf 60ppm. Also sammelt er fleissig Wörter und bekommt zugeschickt, versendet selbst aber keine. Hat das grosse Nachteile wenn man in der Standardeinstellung auch beim crawlen verteilt?

In 0.8 verteilt er in der Standardeinstellung auch, wenn er nur remote crawls macht. Was du beschreibst ist also "behoben".
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: RWI Zähler

Beitragvon PCA42 » Mo Mai 18, 2009 4:19 pm

@dulcedo: Das der RWI-Puffer vorher geleert wird ist notwendig, damit Yacy nicht OOM geht. Nicht merkwürdig, das ist Absicht.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon bluumi » Mo Mai 18, 2009 4:59 pm

dulcedo hat geschrieben:Ich denke ich habe die/eine Ursache:
Standardeinstellung is DHT-out = aus, wenn Crawler aktiv. Der ist aber immer aktiv s

kann leider auch nicht sein, mein Peer hate ich DHT-out gleich nach der Installation aktiviert, trotzdem deutlich mehr Wörter.
P: MURLs/MWorte (Laufzeit)
11/34 (3w)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 18, 2009 5:44 pm

Sehr seltsam alles, ich beobachte es weiter, meine Liste hatte ich ja gepostet, jetzt wieder einen neuen, die Release heute Vormittag installiert, der läuft bisher "normal" hat aber auch erst je knapp 1mio.

@PCA42: Das war mir schon klar, ich habe es anschaulich gepostet damit die 100k aus der Release verschwinden, heute Nacht sah die noch anders aus.

@Lotus, ja in der jetzigen ;-)
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Fr Mai 22, 2009 2:46 pm

PCA42 hat geschrieben:Ich denke bei ca. 100Mio ist dann auch dort Schluss, weil der RAM (4 GB) nicht mehr reicht. Also noch ca. in 14 Tagen.

Mal ein Selbstzitat. Ich kann Vollzug melden. ;)

Der Peer steht jetzt bei 16,1 Mio URLs, 101 Mio RWI. Die Datenbanken dafür belegen derzeit 74,3 GB (6,8 GB URLs; 67,5 GB RWI). Hat also dann nichtmal 14 Tage gedauert. Der Peer läuft derzeit mit 4,5 GB für die VM (von 6 GB physikalisch). Werd jetzt von Hetzner zu ispOne - da gibt es für 10 EUR mehr im Monat 2 GB mehr RAM und einen Quad-Core. Außerdem gibt es dort keine Einrichtungsgebühren für die Roots. Mit dem Preis für den Root-Server ist dann aber mein "Taschengeld" aufgebraucht. :(
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon dulcedo » Fr Mai 22, 2009 5:58 pm

Das dürfte aber auch keine Lösung sein, vor allem nicht für den eigentlichen Einsatzzweck: zuhause auf dem Heim-PC.
Deswegen nochmal in den Raum gestellt: ist das richtig so?
Meine Definition von Wort in diesem Fall ist eine einmalige Kombination von Zeichen. Kann es in 16 Millionen verschiedener URLs (muss nicht einmal unterschiedlicher Inhalt sein) 100 Millionen verschiedener solcher Wörter geben? Ich sage nein.

OT: Hallo Nachbar!
Die Anbindung dort ist traumhaft, wenn was zu reparieren ist einfach bevollmächtigen, in Sichtweite ;-)
Mache den Traceroute bitte doch um ähnliche Hauptverkehrszeit von Hetzner aus nach FRA, würde mich interessieren.

Code: Alles auswählen
traceroute to 80.81.192.164 (80.81.192.164), 30 hops max, 52 byte packets
1  195.42.114.2 (195.42.114.2)  2.567 ms  1.989 ms  1.876 ms
2  rt1ch.ka.telemaxx.net (213.144.4.101)  0.427 ms  0.589 ms  0.987 ms
3  rt1tp.ka.telemaxx.net (213.144.4.70)  0.614 ms  0.640 ms  0.681 ms
4  decix-gw.hetzner.de (80.81.192.164)  3.362 ms  3.284 ms  3.389 ms
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Fr Mai 22, 2009 6:27 pm

Das mit dem Root-Server und den großen Datenmenge möchte ich derzeit machen, um Yacy aus dem Henne-Ei-Problem heraus zu bekommen. Das ist definitiv kein Maßstab für den Alltagseinsatz. Im Alltagseinsatz sollte aber auch viel mehr Peers vorhanden sein, die sich die zu erwartenden Datenmengen dann teilen. Und dann natürlich auch mit weniger Resourcen arbeiten können.

Ein Weg neue Mitstreiter anzulocken sind meiner Meinung nach brauchbare Suchergebnisse. Und dafür braucht es eine entsprechende Datenbasis. Deshalb läuft der Peer mit dem Crawler halt am Limit.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon dulcedo » Sa Mai 23, 2009 7:56 am

Genau in die Richtung arbeite ich auch, im Moment 3 flott erreichbare grosse Maschinen. 8GB geht aber nur auf einer davon. 4GB wird ab 60mio eng, mit DHT-In ausgeschaltet würde es wohl gehen aber dann keine globale Suche. Könnte man das für diese speziellen Peers patchen dass sie eine gewisse Weile nur DHT-Out machen und trotzdem global suchen?

Bei kleinen Peers sieht es mit globaler Suche momentan sehr schlecht aus, 2 Peers die ich seit dem Release gestartet habe, nur mit DHT Verteilung keinerlei crawling, sind nun schon bei 9Mio Wörtern und 2,5 Mio URLs. Ein durchschnittlicher Heim-PC hat 1GB verfügbar. Das reicht nicht lange und der Peer ist unbenutzbar, zuerst für globale Suchen dann auch eigenes crawling.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon apfelmaennchen » Sa Mai 23, 2009 9:32 am

Ich hatte ja meinen 67 Mio. URL / 42 Mio. RWI Index mal ins Backup geschoben und mit der neuen Datenstruktur wieder mit einem leeren Index begonnen.
Interessant ist, dass ich die selben Seiten wieder crawle allerdings jetzt bei erst 20 Mio. URLs schon über 73 Mio. RWIs habe !!!!!!

Außerdem auffälig ist, dass ich 87 Mio. Received Words bei nur rund 5 Mio. Sent Words habe, ggf. hat mein Peer also noch ordentlich was mit DHT-out vor sich...
Ebenfalls erstaunlich sind die noch ca. 40 Mio. URLs für for Remote Crawl, dass hatte ich so bisher auch noch nicht!

Dem Peer ist's momentan egal, der hat ne 6/1 MBit DSL-Leitung, 8GB RAM und nen QuadCore exklusiv für YaCy, doch wollte ich eigentlich auf was stromsparenderes umstellen, d.h. auch auf etwas weniger RAM.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: RWI Zähler

Beitragvon Orbiter » Sa Mai 23, 2009 9:51 am

das Zählen der RWI funktioniert mit der RICELL nicht, da man ja nicht weiss wieviele nach einem full merge da sein würden. Ich muss man schauen ob ich den full merge machen kann, aber dann gibt es wieder andere Probleme, möglicherweise mit der Dateigröße. Jedenfalls erklärt es die Konstruktion der RICELL BLOBs, dass die Anzahl der RWIs viel höher ist als bei den collections. Ich würde mal sagen, über den Daumen gepeilt müsste die Anzahl der RWIs, die momentan ausgegeben werden, geteilt durch die Anzahl der BLOBs, wenn diese gleich groß wären (was sie nicht sind), entwas unter der 'echten' anzahl der RWIs liegen. Bei einer Betrachtung von BLOBs sehr verschiedener Größe müsste man ein wenig mehr mit besseren Wahrscheinlichkeiten rechnen, um die echte Anzahl der RWIs zu approximieren.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI Zähler

Beitragvon dulcedo » So Mai 24, 2009 7:34 am

Eine Seite gelöscht und in Kurzform:
Warum ist der Speicherverbrauch im RAM jetzt höher? Eine direkt Folge der höheren Performance?
Wenn ja muss man das neu designen weil wohl nicht praktisch einsetzbar, in der Masse frühestens in 2 Jahren.
Oder solange die Zielgruppe neu definieren.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Nathan » So Mai 24, 2009 7:37 am

Bei heutigen Standard-Mitgaben von meißt 4GB RAM sollte schon einiges gehen denke ich.
Nathan
 
Beiträge: 38
Registriert: Mi Jun 27, 2007 6:26 pm

Re: RWI Zähler

Beitragvon Nighthawk » So Mai 24, 2009 10:39 pm

Nathan hat geschrieben:Bei heutigen Standard-Mitgaben von meißt 4GB RAM sollte schon einiges gehen denke ich.


Standard-RAM von 4 GB? Das sehe ich aber entschieden anders. 2 GB sind schon gute Ausstattung bei einem Durchschnittrechner, nicht jeder stellt sich eine Workstation oder Server hin.
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 25, 2009 4:46 am

4GB habe ich zwar bei meinem grössten Peer im Büro, das ist aber eher ein Versuchskaninchen wieviel mit 4GB unter Win überhaupt möglich ist. Und dort funktionieren 35 Mio Wörter noch ganz gut, sodass ich den Rechner auch anderwertig nutzen kann.
4GB ebenfalls auf einem reinen Debian-Server, und da ist nun bei spätestens 100mio Wörtern Ende, mehr geht definitiv nicht.
Wäre kein Problem, sind ja eine Menge, nur hat er die schätzungsweise in einem Monat zusammen und keine praktikable Möglichkeit momentan sie loszuwerden.
Der normale Arbeitsplatzrecher auf dem YaCy laufen soll hat momentan maximal 1GB für YaCy übrig, das ist schon hoch angesetzt.

Könnten wir mal ein kleines Netz aufbauen mit ein paar wenigen Peers die sich leichter beobachten lassen. Hat diese neue Art der Verteilung denn schon jemand in der Art getestet? Vielleicht ergeben sich ja Nebeneffekte durch Peers die nicht migirieren. Und das ist die für mich interessante Frage: Warum wächst bei Peers die noch (zusätzlich) eine RICOLLECTION nutzen die Anzahl Wörter nicht so extrem wie bei denen die rein mit RICELL laufen? dulcedo läuft seit einem halben Jahr mit jetzt 35mio Wörtern, bigbird als der schnellere Rechner ebenfalls mit 45mio, der neu aufgesetzte (nur mit RICELL) hat nach 3 Wochent 60mio. Das finde ich sehr auffällig. Die älteren indexieren doch genauso lange schon auch in RICELL, also warum unterscheidet sich das so gravierend?

Die Performance ist für Webcrawls wirklich beachtlich, muss man schon mit einrechnen, dieser Peer hängt an einem bis zu 100Mbit schnellen Kabelmodem mit allerdings sehr vielen Verbindungsproblemen:
Dateianhänge
PerformanceGraph090525.png
Durchschnittliche Performance, quad,4GB
PerformanceGraph090525.png (18.19 KiB) 4158-mal betrachtet
Zuletzt geändert von dulcedo am Mo Mai 25, 2009 6:37 am, insgesamt 2-mal geändert.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Nathan » Mo Mai 25, 2009 6:05 am

Nighthawk hat geschrieben:
Nathan hat geschrieben:Bei heutigen Standard-Mitgaben von meißt 4GB RAM sollte schon einiges gehen denke ich.


Standard-RAM von 4 GB? Das sehe ich aber entschieden anders. 2 GB sind schon gute Ausstattung bei einem Durchschnittrechner, nicht jeder stellt sich eine Workstation oder Server hin.


Standard-RAM von 4GB, ja. Noch nicht der Standard der in den Haushalten momentan steht, das sollte klar sein, aber bei den Verkäufen schon. Ich gehe mal von einen Durchschnittspreis von ca. 500,- pro Rechner aus, da ist der Speicher in der Regel in der Größenordnung vorhanden. Und selbst wenn es "nur" 2GB wären, kauft man sich für 30,- bis 40,- halt 2GB dazu, was auch kein Beinbruch ist. Damit sollte es eigentlich auch nicht mehr allzu lange dauern bis 4GB auch wirklich der Standard zu Hause ist.

Für 300,- bekommt man zwar keinen Leistungsboliden, aber für Yacy ist es doch perfekt:
http://www1.atelco.de/1Avro6y7h9eYaN/ar ... 6&agid=610

4GB RAM + 500GB HDD + eine nicht allzu schwache CPU = guter Yacy-Peer

Mal schauen, was das Zeug in 2Jahren noch wert ist, dann sieht die Welt gleich wieder ganz anders aus :P
Nathan
 
Beiträge: 38
Registriert: Mi Jun 27, 2007 6:26 pm

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 25, 2009 6:39 am

Der optimale PC für YaCy zuhause ist auf Atom-Basis, ökonomisch und ökologisch, dort hat man oft den Speicher dann auf 2GB begrenzt.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Nathan » Mo Mai 25, 2009 6:58 am

dulcedo hat geschrieben:Der optimale PC für YaCy zuhause ist auf Atom-Basis, ökonomisch und ökologisch, dort hat man oft den Speicher dann auf 2GB begrenzt.


Aber auch nur, wenn man die Note-/Netbook-Variante einsetzt, ansonsten kann man das auch wieder vergessen (z.B. Intel-Boards). Ich habe hier einen Atom230 und 330 im Einsatz auf den Intel-Boards und die verbraten nur unwesentlich weniger als mein AthlonX2 4850e, wobei letzteres um einiges besser aufgerüstet werden kann und auch sehr viel leistungsfähiger ist. Die Atomplattform in ihrer jetzigen Ausprägung kann ich jedenfalls kaum jemand empfehlen. Selbst von den Kosten her nimmt es sich nicht viel.
Und wenn es denn unbedingt ein Atom sein soll, dann halt den hier:

http://www.heise.de/preisvergleich/a431583.html

Durch den besseren Chipsatz, bessere Grafik, weniger Strom und auch die 4GB sind möglich ;)
Nathan
 
Beiträge: 38
Registriert: Mi Jun 27, 2007 6:26 pm

Re: RWI Zähler

Beitragvon Orbiter » Mo Mai 25, 2009 8:03 am

dass es zu RAM-Problemen wegen der Verteilung des Indexes auf mehrere Files kommen würde hatte ich nicht gedacht und bedacht. Ein Hebel um das zu verbessern wäre erst mal eine Anhebung der maximalen Dateigröße auf 2GB für Windows-Rechner, und mehr für alle andere OS. In SVN 5974 ist das nun drin, jetzt sollte es erst mal bei euch zu vielen neuen Merges kommen und dann hoffentlich weniger RAM-Bedarf. Der RWI-Zähler sollte entsprechend kleiner werden, da ja dann nicht mehrfach gezählt wird.
Wer die maximale Dateigröße anheben will, kann das mit den Werten filesize.max.win und filesize.max.other machen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 25, 2009 9:16 am

Nathan, ja die meinte ich. Eine eee-Box kann man prima zu einer YaCy-Box machen, als WLAN-Router schalten, dazu noch einen Medien- und Fileserver, wenn man mag noch Apache und MySQL, kann er auch noch zusätzlich. Ausserdem natürlich als Multimediaclient nutzbar. Nur HD-Video wird eng weil die Grafik etwas beschränkt. Dann hast du alles zuhause für einen Server sinnvolle mit maximal 35Watt Stromverbrauch.

Orbiter: wenn es nur daran liegt wäre das wunderbar, eigentlich müsste man bei NTFS zumindest unter Win7 auch grössere Dateien als 2Gb verwalten können, ich teste das mal. MS spricht bei seinem Server2008 (RC) von keiner Beschränkung mehr. Was wäre denn eine Optimalgrösse?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon Lotus » Mo Mai 25, 2009 9:20 am

Ich sehe einmal, ob ich aus max.filezize.win max.filesize.fat machen kann. Denn nur dieses noch höchst selten eingesetzte Format hat ein ernstzunehmendes Limit. Zu selten: auf Wechseldatenträgern die genauso unter Betriebssystem X genutzt werden ist es häufig vorformatiert.
Außerdem gilt das 2GB Limit für FAT16, für das auch 8+3-Dateinamen gelten die YaCy garantiert nicht einhält. FAT32 kann bis 4GB.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: RWI Zähler

Beitragvon Orbiter » Mo Mai 25, 2009 10:10 am

ja das ist prima, ich wollte erst mal nur auf Nummer Sicher gehen da hier oft über Dateien > 2GB geschimpft wurde und mit den verschiedenen Filesystemen kenne ich mich nicht aus. Ich hab da ja Scheuklappen auf weil ich seit Ewigkeiten mit Macs arbeite wo es schon unter MacOS 9 keine besonderen Limitierungen gab.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI Zähler

Beitragvon Phiber » Mo Mai 25, 2009 10:30 am

Hat jetzt ca 1h gedauert, musste halt 2x neu starten da er sich eingefressen hatte. Erstmal Peer 1MioURL 10 Mio RWI

Von 5-10 1GB Files ist er nun auf 1x 3.0GB

Und von 10 Mio RWI auf 3.5 Mio runter.

Danke vielmals Orbiter!

Ps. Würde erstmal in den Robinson-Mode, dann erst updaten und mergen lassen.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: RWI Zähler

Beitragvon dulcedo » Mo Mai 25, 2009 7:40 pm

Danke ebenso auch für den Tipp, das kann ich bestätigen, er hört dann einfach auf mit mergen, beim nächsten Neustart macht er weiter.
Wenn ich auf Robinson schalte geht es allerdings wesentlich langsamer vonstatten. Ausserdem sind die Dateien nicht gleich gross, bei 3GB zwischen 1,5 und 7GB, bisher. Die Wörter wieder im Verhältnis zu den Seiten wie vorher also auch RAM Bedarf wieder im Rahmen, super!
Morgen früh versuche ich mal den grossen Peer, dann sehe ich besser ob und wie sich die Performance ändert.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Mo Mai 25, 2009 8:31 pm

Läuft bei mir derzeit gut durch, die RWI-Zahlen und der damit benötigte RAM sind gesunken. Robinson oder Neustart waren nicht erforderlich. Bin auf das Endergebnis nach dem vollständigen Merge gespannt (32 GB Blobs^^).
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon Orbiter » Mo Mai 25, 2009 8:49 pm

dulcedo hat geschrieben:Ausserdem sind die Dateien nicht gleich gross, bei 3GB zwischen 1,5 und 7GB, bisher.

Das ist der ursprünglich gewollte Effekt, aber das ist auch nur ein Experiment: Wenn alle Dateien, die ein kleineres Verhältnis als 1:2 miteinander gemerged werden, entsteht eine Anzahl von Dateien, die logarithmisch ist zu der Anzahl der RWIs im größten BLOB. D.h. die Anzahl der Dateien begrenzt sich automatisch nach oben ohne weitere Regel, und es werden nur die Dateien gemerged, die in etwa gleich groß sind. Das heisst dann auch, das die Anzahl der Merge-Vorgänge begrenzt und ggf. sogar minimiert wird.

Ob diese einfache Regel tatsächlich formal eine Minimierung der Merge-Vorgänge ist, muss mal ein Mathematiker nachrechnen. Ich hab so das Gefühl das es tatsächlich eine Minimierung sein könnte.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: RWI Zähler

Beitragvon dulcedo » Di Mai 26, 2009 1:46 am

Der Effekt ist wirksam, was den Speicherverbrauch angeht, in ein paar Stunden 75mio auf 30mio Wörter reduziert, das passt wieder besser zu 25mio URLs.
Oder deutlicher: von minimal 2,2 GB auf minimal 1 GB.
Die crawl-Performance geht deutlich zurück, Faktor 10, das dürfte durch das noch laufende Mergen bedingt sein? Wenn es so bleibt sage ich es ist mir egal, lieber so gemächlich und auf Wunsch mit viel Speicher beschleunigbar, als der momentane Zustand.

HalbOT, deine Anmerkung mit den 2GB Dateigrösse: Daran bin ich vermutlich schuld, ich hatte im Spätjahr mit Samba experimentiert, dort gibt es diese Begrenzung und ich hatte Probleme, nicht nur diese. Vergiss diese Begrenzung besser so schnell wie möglich, so wie ich Samba.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Di Mai 26, 2009 4:46 am

Der Merge ist durch. Von 113Mio auf 47Mio., das ist doch mal was. Bin allerdings am Grübeln, ob ich die maxFilesize noch auf 64 GB erhöhe. Hab derzeit 74GB an Blobs. Da sollte das dann noch weniger werden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon dulcedo » Di Mai 26, 2009 6:24 am

Nathan hat geschrieben:Und wenn es denn unbedingt ein Atom sein soll, dann halt den hier:
http://www.heise.de/preisvergleich/a431583.html
Durch den besseren Chipsatz, bessere Grafik, weniger Strom und auch die 4GB sind möglich ;)


Kurz nochmal dazu, ich habe den hier von Shuttle entdeckt und hoffe die können den auch wirklich im Juni liefern. Das dürfte das momentan beste Home-Yacy sein, wenn ich es für die ganze Familie sehe. Der müsste auch ohne MS zu bekommen sein, dann nochmal 50 weniger, das ist unschlagbarer Preis.

Das selbe ökologische Ziel in die andere Richtung erreicht wäre diese Maschine, ein Acer Veriton M670. Der bietet 8GB, den neuen Q9400 für komplett unter 1000€. Bei 70Watt im Leerlauf und 100 unter Vollast. Im Semipro-Serverbereich kenne ich nichts sparsameres bei der Leistung.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon dulcedo » Mi Mai 27, 2009 4:36 pm

Ein grosser Peer hat hier nun auch neu gemerged, alles wieder im Rahmen. Die Performanceeinstellungen habe ich korrigieren müssen, 100k Puffer und Busy-Delays wieder höher im 2-stelligen Bereich (Core2Duo,4GB). Dann die Performance auch annähernd wie zuvor.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: RWI Zähler

Beitragvon PCA42 » Mi Mai 27, 2009 6:53 pm

Eine Erhöhung der Blob-Größe auf 64GB hat den Bestand der Wörter von 46Mio auf 43Mio geschrumpft. Die 32GB als Standard-Wert sollten damit also ausreichen, der Nutzer von größeren Werten hält sich in Grenzen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: RWI Zähler

Beitragvon bluumi » Do Mai 28, 2009 12:00 am

dulcedo hat geschrieben:eigentlich müsste man bei NTFS zumindest unter Win7 auch grössere Dateien als 2Gb verwalten können,

Räusper, also bei RiCollection hatten wir (ich) Files von mehr als 16Gbyte grösse unter WInXP. :)
Dass dann RiCell sich auf 1 GByte beschränkte war für mich ein Zeichen dass es die Blobs so wollten. Na, Hauptsache es darf nun mehr, also 16GByte dürfte es dann wohl in den meisten Fällen auch vertragen unter den üblichen WIn-Dosen.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: RWI Zähler

Beitragvon dulcedo » Do Mai 28, 2009 5:42 am

bluumi: Das war wie schon geschrieben wohl ein Kommunikationsfehler. Hier aber eine interessante Sache, was stimmt hier an der Puffereinstellung nicht, bzw. wie könnte man die optimieren. Nur den RWI-Puffer erhöhen bewirkt das Gegenteil, wohl durch die lange Schreibpause.
Ich kann mir nicht vorstellen dass in diesem Moment (6:00 am) die Leitung schlagartig besser oder der Crawl gemischter geworden ist, für so kurze Zeit. Ansonsten ist YaCy nämlich ein sehr mächtiges Tool um die Langzeit-Qualität der Internetverbindung zu Testen, das am Rande.
Verwendet wird 0.82 auf einem Core2Duo mit zugewiesenen 3000MB, die Durchschnittsgeschwindigkeit liegt normalerweise zwischen 200 und 300ppm:
Dateianhänge
pgrahp090528_4.png
pgrahp090528_4.png (25.79 KiB) 3855-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Nächste

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast