Speicher-Dump der URL-Tables beim Beenden

Ideen und Vorschläge sind willkommen.

Speicher-Dump der URL-Tables beim Beenden

Beitragvon PCA42 » Mi Feb 04, 2009 9:55 pm

Die netten Speicher-Dump's des DHT-Buffer und auch der RWI-Index sind bei einem Start von Yacy ja schnell eingelesen. Dann beginnt aber das lange Warten bis die URLs (20GB bei mir inzwischen) endlich eingelesen sind. Kann man da nicht auch mit einem Dump abhilfe schaffen und so den Start beschleunigen?
Hängt natürlich auch davon ab, wie sich das packen läßt. Sind bei mir ca. 1 GB im Speicher, wäre die Frage was nach gzip davon übrig ist.

Mal ein Auszug aus meinem letzten Start-Log:
DHT-Buffer (3100707 word/URLs laden, 130 MB) -> 6 Sekunden
RICollection-Index (15.243.606 Words, 457 MB) -> 42 Sekunden
URLs (48.602.616, 20,5 GB) -> 5 Minuten, 29 Sekunden
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon PCA42 » Do Apr 16, 2009 9:07 pm

Ich wärm das mal auf. Ist für die URLs eigentlich auch eine Überführung in Richtung Blob geplant? Denn mit dem Idx-File könnten die sicher auch schneller geladen werden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon Quix0r » Mi Mai 27, 2009 12:28 pm

Bis gestern Abend (Platte voll) hatte ich 25 Mio. Links im Index, das hat aehnlich lange wie bei PCA42 gedauert. Ich wäre da auch an einen beschleunigbaren Start interessiert, da ich wegen der Updates öfters neustarte - solange dies im machbaren Bereich liegt. ;)
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon Orbiter » Mi Mai 27, 2009 12:47 pm

ich wollte das Thema ein wenig schieben, weil ich schon vor Monaten vor hatte, die URL Tables durch BLOBs zu ersetzten, da die die Metadaten effizienter speichern können, weil keine feste Feldlängen vorgegeben sind, die eine enorme Verschwendung sind bei den aktuellen Tables. Aber wenn die BLOBs die jetzigen Tabellen ablösen, haben wir automatisch beschleunigte Starts. Ich weiss nur noch nicht wann ich dazu komme.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon Quix0r » Mi Mai 27, 2009 1:00 pm

Jo. :) Nur dass es nicht von deinem Radar a la TODO-Liste verschwindet. ;)
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon dulcedo » Mi Mai 27, 2009 3:59 pm

Am Rande: bei diesen Ladezeiten wird eine Beschleunigung der YaCy-Platte interessant. Ohne grossen Kostenaufwand lässt sich bei Lesen nur durch geschickte Anordnung der Partitionen schon Faktor 2 gewinnen. Wenn man eine zusätzliche Platte in ein Raid0 investiert schafft man ohne weiteres 100-150Mbit, das wäre dann Faktor 4 zu einer Herkömmlichen, wenn wie oft beim Hersteller der Sparfuchs zugeschlagen hat. Mit Bordmitteln messen wie schnell er grosse Dateien kopiert wenn die Geschwindigkeit nicht bekannt, alles bis 50Mbit lesen lohnt eine Optimierung.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon Quix0r » Do Mai 28, 2009 9:47 am

Danke für den Hinweis. Ich muss mir bald soweiso weitere Platten kaufen (S-ATA(n) leider Gottes), da meine kleine 80 GB bald nicht mehr ausreichen wird.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Speicher-Dump der URL-Tables beim Beenden

Beitragvon dulcedo » Fr Mai 29, 2009 5:10 am

So sieht das dann in der Praxis aus, der Controller ist zwar sehr teuer, aber nur weil ich damit 8 Platten flexibel zusammenschalten kann, ein normales Hardware-Raid0 per Chipsatz kann das auch. Ich verwende dabei ganz normale 7200umin sATA-Platten und kopiere vom YaCy-Raid auf ein Zweites, damit schaffe ich ein Stop/Backup/Start in 30 Minuten. Ist die Hauptinstallation kaputt kann ich so ohne Verzögerung auch direkt auf das Backup umschalten. Will ich sicher gehen dann bringe ich die Sicherung noch vorher auf ein externes Medium in Sicherheit, das geht über USB mit 30MBit/s, noch einmal eine knappe Stunde downtime. Oder über FTP, mit einer 16 oder 32-Mbit Leitung. Oder wenn ich Zeit habe gleich nach der Sicherung das Backup extern sichern, zu dem Zeitpunkt kann die Hauptinstallation schon wieder laufen.
Kostenpunkt in der Konfiguration das 4fache einer einzelnen Consumer-Platte + Plus externes Backup.
Dateianhänge
Bildschirmfoto-File operations.png
Bildschirmfoto-File operations.png (10.46 KiB) 994-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 1 Gast