Frage Wikimedia Dump Import

Ereignisse, Vorschläge und Aktionen

Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Sa Aug 06, 2011 10:02 pm

Finde es genial, dass die Entwickler die Funktion des Wikipedia-Datenbank-Dumps eingebaut haben. Ich habe eine Frage dazu:

Angenommen ich habe so einen Dump heruntergeladen, entpackt und von YaCy importieren & indexieren lassen. Wenn ich dann mit der YaCy Suche beim Suchergebnis einen URL ansurfe der aus dem Datenbank-Dump von Wikipedia stammt, gelangt man dann direkt zur Page auf den Servern der Wikipedia oder wird dann eine lokal gespeicherte Kopie der Wikipedia-Seite aufgerufen?

Vielen Dank im Voraus & Grüße

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon Orbiter » So Aug 07, 2011 3:23 am

mediawiki-dumps haben in einem xml header-bereich eine base-url eingetragen über die sich ermitteln läßt wie die tatsächliche url für jeden artikel gebildet wird. dieses attribut wird vom importer gelesen und entsprechend die urls eingetragen.
dass heisst dass du beim klick auf das suchergebnis auf die tatsächliche wiki-seite des mediawiki wikis kommst, wo die ursprungsdaten gehostet werden.
im falle von wikipedia dumps: du kommst direkt auf die seite von wikipedia.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » So Aug 07, 2011 10:03 am

Geniales Feature was ihr da eingebaut habt!! Vielen Dank!! Ich schmeiss dann mal einen Import an :-)
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » So Aug 07, 2011 10:13 am

Code: Alles auswählen
Import Process

Thread:
    running
Dump:
    /mnt/826gb/dewiki-latest-pages-articles.xml
Processed:
    564807 Wiki Entries
Speed:
    1344 articles per second
Running Time:
    0 hours, 7 minutes
Remaining Time:
    1 hours, 20 minutes



YEAH :-)

Code: Alles auswählen
/mnt/826gb/dewiki-latest-pages-articles.xml


Jaaa ich weiß, man sollte echt mal eine Initiative zur kreativeren Namensvergebung bei Mountpoints ins Leben rufen :D
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Di Aug 09, 2011 7:03 pm

Soo, mittlerweile habe ich mir das 32 GB große XML-File der englischen Wikipedia vorgenommen:

Code: Alles auswählen
Wikimedia Dump Import
Import Process

Thread:
    running
Dump:
    /mnt/826gb/enwiki-latest-pages-articles.xml
Processed:
    4888147 Wiki Entries
Speed:
    265 articles per second
Running Time:
    5 hours, 7 minutes
Remaining Time:
    21 hours, 32 minutes


YaCy forever!!!!!!!!!!!!!!!!
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Di Aug 09, 2011 7:06 pm

btw ich habe gelesen, dass es einen 280 GB großen Database-Dump der KOMPLETTEN Wikimedia-Angebote gibt, da ist wirklich alles mit drin, soll entpackt über 5 TB haben :D
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Do Aug 11, 2011 7:35 pm

Der Horror jedes Admins ohne USV: Stromausfall :-(((( Heute war mal kurz der Strom weg :-((((

Aber YaCy hat's nichts ausgemacht. Das Indexieren der englischsprachigen Wikipedia läuft weiter :D

Mein Peer ist danach wieder anstandslos hochgefahren.

Viele Grüße

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Mo Aug 15, 2011 11:42 am

I 2011/08/15 08:14:07 HeapReader saturation of text.index.20110813072724979.blob.Nr2Ig15_m4Uo.idx: keylength = 6, vallength = 5, possible saving: 41 MB
I 2011/08/15 08:14:07 HeapReader using a dump of the index of /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20110813072724979.blob.
I 2011/08/15 08:14:09 HeapReader saturation of text.index.20110813074625842.blob.8ECHS5AlmveH.idx: keylength = 6, vallength = 4, possible saving: 14 MB
I 2011/08/15 08:14:09 HeapReader using a dump of the index of /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20110813074625842.blob.
I 2011/08/15 08:14:09 HeapReader saturation of text.index.20110813165725694.blob.u_w5aYVlLHkw.idx: keylength = 5, vallength = 4, possible saving: 2 MB
I 2011/08/15 08:14:09 HeapReader using a dump of the index of /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20110813165725694.blob.
I 2011/08/15 08:14:09 kelondroSplitTable opening partial eco table /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20090101000002829.table
I 2011/08/15 08:14:09 TABLE initialization of text.urlmd.20090101000002829.table. table copy: yes, available RAM: 65171MB, needed: 12132MB, allocating space for 9565758 entries
I 2011/08/15 08:14:09 TABLE /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20090101000002829.table: TABLE /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20090101000002829.table has table copy ENABLED
I 2011/08/15 08:14:09 TABLE initializing RAM index for TABLE text.urlmd.20090101000002829.table, please wait.


Mein Peer startet nicht mehr :-(( Es hat auf jeden Fall nichts mit dem Stromausfall zu tun, ich hatte es vorher auch schon ein paarmal, dann hab ich die JRE gekillt und neu gestartet dann lief es nach 3-4 maligem Wiederholen dieses Vorgangs meist wieder und der Peer hat durchgestartet und alles lief einwandfrei.

Er bleibt einfach hängen (siehe LOG oben) soll ich mal eines dieser Files löschen (wenn ja welches?) und dann nochmal versuchen zu starten?

Viele Grüße

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Mo Aug 15, 2011 6:16 pm

text.urlmd.20090101000002829.table hab ich jetzt einfach mal gelöscht. Was war da drin? URLs? RWIs?

Der Peer fährt jedenfalls wieder anstandslos hoch, und das in weniger als der Hälfte der Zeit die er vorher gebraucht hat, wenn ich denn mal Glück hatte und er überhaupt hochgefahren ist. Links im Index habe ich auch kaum verloren. Sehr komisch. Soll ich die Datei mal komprimieren und irgendwo hochladen damit das einer der Developer analysieren kann?
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon Low012 » Mo Aug 15, 2011 6:42 pm

Wie groß ist denn die Datei? Ich könnte gut angebundenen Speicherplatz zur Verfügung stellen, wüsste aber wahrscheinlich mit den Daten nichts anzufangen. :ugeek: :geek:
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Mo Aug 15, 2011 7:18 pm

Evtl. könnte ich auch den ganzen Peer hochladen :D - hab isch ultrakrasse 10 MBit Upstream :-)

Ich denke auch, die einzelne Datei nützt nix :-(
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Mo Aug 15, 2011 7:43 pm

Jetzt rennt er wieder wie Schmidts Katze :-)))))))) wenn's nochmal auftritt würde ich auf jeden Fall gerne den kompletten Peer (stark komprimiert) hochladen, damit sich's mal jemand von euch anschauen kann.
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon Vega » Mo Aug 15, 2011 8:40 pm

Das muss sich jedenfalls mal jemand genauer ansehen, wäre gut wenn wir dieses Problem reproduzieren können, das kann an der JVM, an den GC Einstellungen der JVM liegen, Dein Log sieht eigentlich gut aus.
Welche JVM verwendest Du ? - Mit so einem großem Peer wärst Du ein guter Tester für die JRockit-VM von Oracle, die jetzt wieder frei verfügbar ist - zumindest teilweise, siehe http://heise.de/-1245446.

Gruß,
Thomas


LA_FORGE hat geschrieben:
I 2011/08/15 08:14:07 HeapReader saturation of text.index.20110813072724979.blob.Nr2Ig15_m4Uo.idx: keylength = 6, vallength = 5, possible saving: 41 MB
I 2011/08/15 08:14:07 HeapReader using a dump of the index of /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20110813072724979.blob.
I 2011/08/15 08:14:09 HeapReader saturation of text.index.20110813074625842.blob.8ECHS5AlmveH.idx: keylength = 6, vallength = 4, possible saving: 14 MB
I 2011/08/15 08:14:09 HeapReader using a dump of the index of /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20110813074625842.blob.
I 2011/08/15 08:14:09 HeapReader saturation of text.index.20110813165725694.blob.u_w5aYVlLHkw.idx: keylength = 5, vallength = 4, possible saving: 2 MB
I 2011/08/15 08:14:09 HeapReader using a dump of the index of /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.index.20110813165725694.blob.
I 2011/08/15 08:14:09 kelondroSplitTable opening partial eco table /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20090101000002829.table
I 2011/08/15 08:14:09 TABLE initialization of text.urlmd.20090101000002829.table. table copy: yes, available RAM: 65171MB, needed: 12132MB, allocating space for 9565758 entries
I 2011/08/15 08:14:09 TABLE /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20090101000002829.table: TABLE /mnt/826gb/yacy/DATA/INDEX/freeworld/SEGMENTS/default/text.urlmd.20090101000002829.table has table copy ENABLED
I 2011/08/15 08:14:09 TABLE initializing RAM index for TABLE text.urlmd.20090101000002829.table, please wait.


Mein Peer startet nicht mehr :-(( Es hat auf jeden Fall nichts mit dem Stromausfall zu tun, ich hatte es vorher auch schon ein paarmal, dann hab ich die JRE gekillt und neu gestartet dann lief es nach 3-4 maligem Wiederholen dieses Vorgangs meist wieder und der Peer hat durchgestartet und alles lief einwandfrei.

Er bleibt einfach hängen (siehe LOG oben) soll ich mal eines dieser Files löschen (wenn ja welches?) und dann nochmal versuchen zu starten?

Viele Grüße

Stefan
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Di Aug 16, 2011 7:36 am

Vielen Dank. Ich werde auf jeden Fall ein bzip2-Archiv von meinem kompletten Peer machen, wenn der Fehler nochmal auftritt.

Bevor ich gestern diese text.urlmd.20090101000002829.table Datei gelöscht hab, habe ich aus Frust vorher das sun-java6-jre runtergeworfen und es durch das OpenJDK-JRE ersetzt, hat aber leider auch nichts geholfen.

Danke für den Tipp mit der JRockit-VM. Ich werde es mir auf jeden Fall mal runterladen, weil ich sowieso einen Account bei Oracle habe, weil ich in meinem Job viel damit zu tun hab. Und vor dem nächsten Peer-Neustart installiere ich die dann.

Viele Grüße

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Wikimedia Dump Import

Beitragvon Vega » Di Aug 16, 2011 8:11 am

@LA_Forge - wenn Du mit der JRockit-VM experimentierst gib mal eine Rückmeldung dazu hier ab, ich hatte die vor 3/4 Jahren mal getestet, und meine
Erfahrungen damit waren sehr positiv......dann plötzlich war das Ding nicht mehr frei :evil: ....


Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Frage Wikimedia Dump Import

Beitragvon LA_FORGE » Mi Aug 17, 2011 7:46 pm

Vega hat geschrieben:@LA_Forge - wenn Du mit der JRockit-VM experimentierst gib mal eine Rückmeldung dazu hier ab, ich hatte die vor 3/4 Jahren mal getestet, und meine
Erfahrungen damit waren sehr positiv......dann plötzlich war das Ding nicht mehr frei :evil: ....


Gruß,
Thomas


Ja klar, mache ich gerne.

Die Lizenzpolitik von Sun/Oracle habe ich auch noch nie wirklich verstanden, ich nutze auch eine Software von Oracle, nämlich den Secure Global Desktop. Seit Sun die Fa. Tarantella übernommen hat und dann später Oracle draus wurde, sind da auch schon mindestens 2 Mal komplette Änderungen am Lizenzmodell gemacht worden...

Gruß

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron