Yacy extrem

Ereignisse, Vorschläge und Aktionen

Yacy extrem

Beitragvon PCA42 » So Jun 28, 2009 5:08 pm

Nachdem die letzten Tage mein Peer munter Daten gesammelt hat, habe ich heute mal eine ganz große Zahl genommen: 274877906943. Das sind 256GB. Damit nach filesize.max.other. Und dann lange warten. Und siehe da: das funktioniert unter Linux als Blob-Größe. Nach dem Merge entstand eine Datei mir 200 GB und 78,9 Mio RWIs. Was ich damit sagen will: Yacy läuft inzwischen selbst mit diesen Datenmengen einwandfrei.

Inzwischen sind auf meinem Peer 327 GB Daten gesammelt (310 GB RWI-Blobs, 17 GB Urls). Für mich zeigt das, dass die Datenstrukturen grundsätzlich effizent arbeiten. Potential gibt es sicherlich immer noch. Aber an diese Datenmenge hätte ich vor ein paar Wochen nicht geglaubt.

Deshalb: weiter so!
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Yacy extrem

Beitragvon Orbiter » So Jun 28, 2009 7:54 pm

interessanter Test! Jetzt mal gucken wie performant dann noch die Suche ist, die aber eigentlich mit einem großen BLOB besser sein sollte als mit vielen kleinen: dazu die Testdateien in yacy/bin/ mal angucken:
./localsearch.sh test
macht eine Suche in lokalen Peer nach 'test'. Dazu wird im Script im Config nach dem Port geguckt, und dann mit wget oder curl das yacysearch aufgerufen, und die Resutat-URLs rausgefiltert. Wenn das geht, ein kleiner Performancetest:
./searchtest.sh searchtest.words
benutzt eine Wortliste von 100 Wörtern in searchtest.words um in einem Thread dann diese nacheinander alle für eine Suche zu nutzen, bei Nutzung von localsearch.sh Am Ende gibts eine QPS-Angabe. Wenn das lief, der ultimative Test:
./searchtestmult.sh
ruft ein Script auf, das in 10 Threads jeweils 1000 Suchanfragen parallel durchführt, und zwar mit
./searchtest.sh searchtest.words.aa (etc.)
Das muss man mit der Stoppuhr testen. Am Ende des Durchlaufs wurden 10000 Suchanfragen durchgeführt. Wenn man dann die 10000 durch die Laufzeit in Sekunden teilt, hat man ein worst-case QPS.
Was kommt da bei dir raus?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy extrem

Beitragvon PCA42 » Mo Jun 29, 2009 12:54 pm

Hab den Peer auf Robinson gestellt und los ging es.
Orbiter hat geschrieben:./localsearch.sh test
Das war noch kurzweilig. 1.141.230 Ergebnisse in 10.575 ms.
Orbiter hat geschrieben:Wenn das geht, ein kleiner Performancetest: ./searchtest.sh searchtest.words
Das dauert dann schon etwas länger. runtime = 1541 seconds, count = 100, time per query = 15410 milliseconds.
Yacy hat dabei tatsächlich aber nur 92 Ergebnisse geliefert. Einige sind dann aber durch OOM verloren gegangen. Und das stärker zum Ende hin, weil die vorherigen (riesigen) Ergebnislisten gecacht wurden. Maximum dabei war die Suche nach "jpg": 3.193.297 Ergebnisse in 27.050 ms. Gescheitert ist der zB an "Blog". Bei einer separaten Suche danach: 4.800.382 Ergebnisse, 41.719 ms.

Den Rest der Tests hab ich mir dann geschenkt, das läuft wahrscheinlich nicht zuverlässig durch. Also wenn du die Suche jetzt änderst: ich mach gerne die Benchmarks 8-)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Yacy extrem

Beitragvon Orbiter » Mo Jun 29, 2009 1:01 pm

ich bin ein wenig entsetzt weil die Suchzeit pro Einzelanfrage weit über 1 Sekunde liegt. Das darf überhaupt nicht sein. Bist du sicher? Ich komme auch bei fetten Peers auf weniger als 300 millisekunden.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy extrem

Beitragvon PCA42 » Mo Jun 29, 2009 1:11 pm

Jepp, die sind wirklich so hoch. Ich vermute, dass hängt mit dem Sortieren der Teilmengen aus den Blobs zusammen. Das ist nicht gerade wenig ;)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Yacy extrem

Beitragvon Orbiter » Mo Jun 29, 2009 1:30 pm

was ist denn das für ein Gerät? Wieviele Cores?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy extrem

Beitragvon PCA42 » Mo Jun 29, 2009 3:15 pm

Intel Quad Core (4x2,4 GHz), 8 GB RAM - 6 GB VM, die Festplatte schafft sequenziell 90 MB/sec. Yacy-Only. Das sollte dafür ausreichend sein.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Yacy extrem

Beitragvon Quix0r » Mo Jun 29, 2009 9:43 pm

@PCA42: Bitte teste nochmal mit meiner yacy.conf. Diese laeuft sehr performant derzeit.

Edit: Diesmal besser so. :)
Edit2: Diese ist mittlerweile ueberholt und sollte entfernt werden.
Zuletzt geändert von Quix0r am Di Feb 02, 2010 9:01 pm, insgesamt 2-mal geändert.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Yacy extrem

Beitragvon Orbiter » Di Jun 30, 2009 8:36 am

Quix0r: hab den Link entfernt, weil da sicherheitsrelevante Dinge drin standen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy extrem

Beitragvon Quix0r » Di Jun 30, 2009 11:14 am

Orbiter hat geschrieben:Quix0r: hab den Link entfernt, weil da sicherheitsrelevante Dinge drin standen.

Danke, hab ich eben rausgenommen. So ein Mist. :( Das geht mit meinem Web-Interface derzeit nicht, sollte ich mal updaten...
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Yacy extrem

Beitragvon Quix0r » Di Feb 02, 2010 9:07 pm

Hab das auf meiner Node auch angepasst, mal schauen, wann ich die ersten >8 GB Blobs sehe. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Yacy extrem

Beitragvon Quix0r » Mo Mär 29, 2010 11:04 pm

Hier nun mit aktueller SVN (6785) die Verzeichnisauflistung:
Code: Alles auswählen
-rw-r--r-- 1 quix0r quix0r  6420217370 2010-03-29 23:08 text.index.20100316021412951.blob
-rw-r--r-- 1 quix0r quix0r 25387082470 2010-03-29 23:08 text.index.20100319031757088.blob
-rw-r--r-- 1 quix0r quix0r  6400206740 2010-03-29 23:08 text.index.20100319223459441.blob
-rw-r--r-- 1 quix0r quix0r  6342666090 2010-03-29 23:08 text.index.20100320022119253.blob
-rw-r--r-- 1 quix0r quix0r  6277412130 2010-03-29 23:08 text.index.20100322021511806.blob
-rw-r--r-- 1 quix0r quix0r  7331621480 2010-03-29 23:08 text.index.20100323104539083.blob
-rw-r--r-- 1 quix0r quix0r  6548963870 2010-03-29 23:08 text.index.20100327113321820.blob
-rw-r--r-- 1 quix0r quix0r  4047879290 2010-03-29 23:08 text.index.20100329115643580.blob
-rw-r--r-- 1 quix0r quix0r  1696339830 2010-03-29 23:08 text.index.20100329185318424.blob
-rw-r--r-- 1 quix0r quix0r   582621560 2010-03-29 23:19 text.index.20100329211804173.blob
-rw-r--r-- 1 quix0r quix0r   139304670 2010-03-29 23:56 text.index.20100329215617853.blob
-rw-r--r-- 1 quix0r quix0r     8526880 2010-03-29 23:57 text.index.20100329215741143.blob
-rw-r--r-- 1 quix0r quix0r  2128203504 2010-03-29 23:56 text.urlmd.20100120182346227.table
-rw-r--r-- 1 quix0r quix0r  2121345072 2010-03-29 23:56 text.urlmd.20100123022016600.table
-rw-r--r-- 1 quix0r quix0r  1138993920 2010-03-29 23:55 text.urlmd.20100127082247381.table
-rw-r--r-- 1 quix0r quix0r  2145787632 2010-03-29 23:48 text.urlmd.20100129195923097.table
-rw-r--r-- 1 quix0r quix0r  2145483072 2010-03-29 23:57 text.urlmd.20100206195557844.table
-rw-r--r-- 1 quix0r quix0r  1776239712 2010-03-29 23:57 text.urlmd.20100317230812340.table

Der groesste Blob ist 25387 MB gross, also gute 24 GB. Die .table-Dateien scheinen wohl nicht weiter gemergt zu werden, auch sieht es beim HTCACHE/file.array/ Verzeichnis nicht anders aus (als wie bei den .table-Dateien):
Code: Alles auswählen
-rw-r--r-- 1 quix0r quix0r  366781242 2010-03-29 23:59 KRMsu7e231__.20100328173959999.blob
-rw-r--r-- 1 quix0r quix0r 2149176132 2010-03-29 23:59 KRMsu7e231__.20100329020959101.blob
-rw-r--r-- 1 quix0r quix0r 1768891629 2010-03-30 00:00 KRMsu7e231__.20100329125131472.blob

Ich hatte schon mal mehr Cache gehabt - hatte zwischenzeitlich geloescht, wieso auch immer ich das getan hatte - und da waren die Dateien immer maximal etwas ueber 2 GB gross (so um den Dreh wie KRMsu7e231__.20100329020959101.blob). Hier koennte (bei >10 GB Cache) vielleicht auch ein weiteres Migrieren den Zugriff beschleunigen.

Zudem habe ich das gesamte HTCACHE-Verzeichnis auf eine seperate Festplatte verschoben (~/yacy/ ist somit bis auf HTCACHE halt alleine auf einer Festplatte, 160 GB, relativ neu). Hier die ge-grep-ten Daten von "dmesg":
Code: Alles auswählen
hda: Maxtor 6L200P0, ATA DISK drive
hdb: MAXTOR STM3160215A, ATA DISK drive
hda: host max PIO5 wanted PIO255(auto-tune) selected PIO4
hda: UDMA/133 mode selected
hdb: host max PIO5 wanted PIO255(auto-tune) selected PIO4
hdb: UDMA/100 mode selected
hda: max request size: 512KiB
hda: 398297088 sectors (203928 MB) w/8192KiB Cache, CHS=24792/255/63
hda: cache flushes supported
hda: hda1
hdb: max request size: 512KiB
hdb: 312581808 sectors (160041 MB) w/2048KiB Cache, CHS=19457/255/63
hdb: cache flushes supported
hdb: hdb1

hda1 ist /home/ mit HTCACHE von YaCy und hdb1 ist halt nur der Rest von YaCy drauf. :) Zu mehr reicht das Geld leider nicht. :(

Auh, 2 MB Festplatten-interner Cache wo YaCy drauf ist, hda<->hdb austauschen muss ich schauen, beides ext4. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast