Index-Export bricht ab

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Index-Export bricht ab

Beitragvon LA_FORGE » Do Mai 28, 2015 4:22 pm

Hi,

ich habe bei mir noch einen alten Peer von 2012 gefunden, es waren 8 x RAR-Archive á 20 GB :D ich wollte daraus über die Seite IndexControlURLs_p.html den Index als HTML exportieren (URLs with title). Leider bricht es immer wieder ab, bevor alle URLs exportiert werden konnten. Ich habe dann den Peer von v1.2 über v1.3 - v1.7 letztendlich auf v1.8 hochgelevelt und mir ist aufgefallen, dass umso höher die Versionsnummer wird, umso mehr URLs können exportiert werden.

Leider bricht er immer noch bei 20 Mio. von 74 Mio. ab :-( Ich habe mal den Index mit der checkindex.sh überprüfen lassen, es ist alles in Ordnung. Kann es an einer zu langsamen Festplatte liegen? Leider habe ich momentan nur eine SATA-HDD im Einsatz, da ja die SAS-Platten

Bild

nach 140 TB I/O Traffic die Grätsche gemacht haben :-( Es war noch Garantie darauf aber ich habe jetzt 2 Refurbished-Platten bekommen denen traue ich aber nicht über den Weg, weil ich denke, dass die Ausfallwahrscheinlichkeit da mindestens doppelt so hoch wie bei neuen Platten ist.

VG

LA_FORGE
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Index-Export bricht ab

Beitragvon Orbiter » Do Mai 28, 2015 8:10 pm

Es gab in einem anderen Kontext (Postprocessing) auch einen Fall, wo das Iterieren durch große Indexmengen abgebrochen ist. Dazu gab es im September 2012 eine Verfahrensänderung die das verbessert bzw. behoben haben sollte. Ich arbeite momentan auch wieder am Export, insofern interessiert mich das auch dass das geht.

Du hast da ja eine ganz schön große Datenmenge gesammelt, so viel habe ich gar nicht :oops: vielleicht kann ich deine Daten zum Testen bekommen? ggf. könnten wir uns dazu ja treffen, so große Datenbrocken kann man ja nirgenswo hin laden so einfach.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Index-Export bricht ab

Beitragvon LA_FORGE » Fr Mai 29, 2015 12:26 pm

Achso. Mir ist gerade aufgefallen, dass ein Teil der Daten noch im alten Indexformat sind und deshalb erst 10 Mio. in den Solr geschaufelt wurden, dann bricht es anscheinend doch nicht ab, es wird nur der Teil exportiert, der schon im Solr ist. Kannst du irgendwie die letzte Build/Version rausfinden wo die Routine noch mit drin ist, die den alten Index migriert?

Gerne kannst du meine Daten zum testen bekommen. Mein Hauptpeer hat schon 104 Mio. und diese Daten sind alle im Solr. Willst du diese Daten lieber haben?
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Index-Export bricht ab

Beitragvon Orbiter » So Mai 31, 2015 8:00 pm

Den Migrationscode habe ich entfernt in diesem Commit: https://github.com/yacy/yacy_search_ser ... f87663a040
D.h. die letzte Release-Version, wo die Migration noch drin ist, ist 1.6
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 2 Gäste