Wikipedia auf DVD in iX

was weder zu YaCy noch zum Thema Suchmaschinen gehört

Wikipedia auf DVD in iX

Beitragvon Low012 » Do Nov 20, 2008 10:48 am

In der aktuellen iX ist eine DVD enthalten, auf der die komplette deutsche Wikipedia enthalten ist: http://www.heise.de/ix/iX-mit-deutscher ... ung/119113

Ich habe die bei mir rumliegen, aber keine Verwendung dafür. Wenn jemand die Daten gebrauchen kann, um z.B. Crawls im lokalen Netzwerk mit größeren Datenmengen zu testen, ist er hiermit dazu aufgerufen sich zu melden und die DVD vor dem Mülleimer zu retten.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wikipedia auf DVD in iX

Beitragvon Orbiter » Do Nov 20, 2008 1:01 pm

das Ding habe ich auch heute entdeckt, und gleich hab ich mich dran gemacht mir die xml-Daten anzugucken. Das ist total faszinierend, wir haben schon recht viel um das auswerten zu können. ich stelle mir einen Wikipedia-Dump Renderer vor, den wir ganz schnell haben weil unser eingebautes Wiki Wikimedia-konform ist. Nun muss man nur noch die Teile des Dumps in quasi-einzeldateien aufteilen, und das in einem Servlet anbieten. dazu muss quasi der Dump 'indexiert' werden. Und um einen dump mit einem Index abzugleichen braucht man einen sehr schnellen md5. Dazu habe ich den bisherigen genommen, und ihn heute morgen multi-threaded gemacht, die 5GB dump werden jetzt in 3 minuten auf meinem Notebook zu einem md5 umgerechnet. Entsprechend schnell sollte dann auch das Indexieren gehen, so dass ein einfacher Browser in YaCy dann möglich wird.

Und wenn wir das haben, kann man die lokale Wikipedia auch in den YaCy-Index stecken.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wikipedia auf DVD in iX

Beitragvon Low012 » Do Nov 20, 2008 1:38 pm

Na dann behalte ich die DVD doch. ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wikipedia auf DVD in iX

Beitragvon Orbiter » Do Nov 20, 2008 4:41 pm

ich habe jetzt eine screening-Routine für den Dump geschrieben, die eine Liste der Titel mit den Position in der Datei ausgibt. Das ganze läuft immerhin rund 10 Minuten, aber raus kommen 1.695.071 Datensätze.
Uiuiui. Wenn man das indexieren will, kann man nicht nur einfach ein Servlet dafür bauen, man braucht auch eine sitemap. Aber eine Sitemap mit rund 1.7 Mio Einträgen ist auch nicht einfach zu verarbeiten. Da müssen ganz neue Konzepte her.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wikipedia auf DVD in iX

Beitragvon Orbiter » Do Nov 20, 2008 7:37 pm

also das müsste jetzt rudimentär funktionieren:
SVN 5352 hat erste Lesefunktionen drin.
Ein dump muss wie folgt vorbereitet werden:

- die Datei dewiki-latest-pages-articles.xml.bz2 aus dem data-Verzeichnis der IX-DVD dekomprimieren, und bei YaCy unter
DATA/HTCACHE/mediawiki/wikipedia.de.xml
ablegen. Die Datei kann auch anders heissen, dann müsst ihr entsprechend die weiteren Namen in der URL im Servlet anpassen. Das könnt ihr auch mit anderen Dumps machen, theoretisch
- dann
http://localhost:8080/mediawiki_p.html? ... title=YaCy
aufrufen. Das sollte dann einige Zeit lang rumrödeln und eine Index-Datei
DATA/HTCACHE/mediawiki/wikipedia.de.xml.idx.xml
schreiben. Erst wenn die da ist kann die URL oben funktionieren!

das ganze ist erst eine Vorarbeit. Wir haben ja für unser Wiki die mediawiki-Syntax, aber wie man jetzt sieht nicht ganz vollständig.
Suchen kann man natürlich auch (noch) nicht, auch nicht die Seiten indexieren (sind noch geschützt, da müssen wir uns was überlegen).
Und der Zugriff ist natürlich noch nicht performant, es wird momentan noch in der wikipedia.de.xml.idx.xml Datei als volltext rumgesucht, um die Seiten zu finden. Das werde ich noch ändern.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wikipedia auf DVD in iX

Beitragvon Orbiter » Mi Dez 10, 2008 3:32 pm

hat das mal jemand ausprobiert?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wikipedia auf DVD in iX

Beitragvon tara » Mi Dez 10, 2008 8:06 pm

Ich habe das mal getestet. Hat auch funktioniert. Der Zugriff war halt noch etwas träge.

Die Dumps werden von der Wikipedia ja regelmäßig herausgegeben. Wäre dann ja praktisch, wenn man dann den halbwegs aktuellen Stand durchsuchen und indexieren könnte. Reicht ja, wenn man sich alle paar Wochen eine aktuelle Version einrichtet.
Ich finde das ganze recht sinnvoll.

Bei dem Aufruf der URL bekam ich zunächst ein "unresolved pattern". Die .idx.xml wurde dann dennoch erstellt. Teste ich aber noch einmal bei Gelegenheit. Nicht das ich da etwas verwechsle.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Wikipedia auf DVD in iX

Beitragvon Lotus » Do Dez 11, 2008 4:58 pm

tara hat geschrieben:Die Dumps werden von der Wikipedia ja regelmäßig herausgegeben.

Hast du einen Download-Link?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Wikipedia auf DVD in iX

Beitragvon tara » Do Dez 11, 2008 5:02 pm

tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Wikipedia auf DVD in iX

Beitragvon Lotus » Fr Dez 12, 2008 1:52 pm

Ich habe das mit der dewiki-20081011-pages-articles.xml.bz2 erfolgreich ausprobiert.
Die Erstellung hat mit r5390 Java6u11 auf einem A64 X2 4200+ ca. 6 Minuten gedauert. Multithreading wird dabei super ausgenutzt. Der Zugriff ist manchmal schnell, manchmal etwas langsam.
Der Mediawiki-Syntax ist aufgrund der Referenzen und Quellen ziemlich komplex umzusetzen. Auf die Schnelle habe ich diese Parser gefunden:
http://code.google.com/p/java-wikipedia-parser/ seit 1 Jahr nicht weiterentwickelt
http://www.ukp.tu-darmstadt.de/software/jwpl/ passt von der Lizenz nicht zu YaCy
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Wikipedia auf DVD in iX

Beitragvon Orbiter » Fr Dez 12, 2008 2:15 pm

wir haben ja einen mediawiki-Parser in YaCy, nur ist der nicht vollständig. Ich glaube da fehlt nicht so viel.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wikipedia auf DVD in iX

Beitragvon tara » Sa Jan 03, 2009 10:47 am

Ich habe noch einmal nachgeschaut. Einmal mit einem bestehendem Peer und dann nochmal mit einem neuem Peer - jeweils mit 0.617/05433. Da gab es jeweils eine Exception & die *idx.xml wurde dennoch erstellt. Folgendes bekam ich angezeigt.

Code: Alles auswählen
Problems with request: GET http://localpeer/mediawiki_p.html?dump=wikipedia.de.xml&title=YaCy

500 Internal Server Error

Unexpected error while processing query.
Session: Session_127.0.0.1:40418#21
Query: /mediawiki_p.html
Client: localhost
Reason: java.lang.reflect.InvocationTargetException

Exception occured: java.lang.reflect.InvocationTargetException

TRACE:
      java.lang.reflect.InvocationTargetException
   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
   at java.lang.reflect.Method.invoke(Method.java:616)
   at de.anomic.http.httpdFileHandler.invokeServlet(httpdFileHandler.java:1172)
   at de.anomic.http.httpdFileHandler.doResponse(httpdFileHandler.java:753)
   at de.anomic.http.httpdFileHandler.doGet(httpdFileHandler.java:251)
   at de.anomic.http.httpd.GET(httpd.java:488)
   at sun.reflect.GeneratedMethodAccessor3.invoke(Unknown Source)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
   at java.lang.reflect.Method.invoke(Method.java:616)
   at de.anomic.server.serverCore$Session.listen(serverCore.java:762)
   at de.anomic.server.serverCore$Session.run(serverCore.java:626)
Caused by: java.io.FileNotFoundException: /media/hdyacy/yacy/DATA/HTCACHE/mediawiki/wikipedia.de.xml.idx.xml (No such file or directory)
   at java.io.FileInputStream.open(Native Method)
   at java.io.FileInputStream.(FileInputStream.java:137)
   at de.anomic.tools.mediawikiIndex$PositionAwareReader.(mediawikiIndex.java:273)
   at de.anomic.tools.mediawikiIndex.find(mediawikiIndex.java:326)
   at mediawiki_p.respond(mediawiki_p.java:57)
   ... 13 more


Interessant fände ich es auch, wenn bei der Suche gleichzeitig geschaut wird, ob der Begriff im title zu finden ist (sofern man einen wikipediadump eingerichtet hat). D.h. so ähnlich wie bei der Vergleichssuche - halt nur noch mit dem lokalen wikipediadump. Es muss ja nicht der gesamte Text durchsucht werden. Der Title der Wikipediaseite ist ja meistens schon aussreichend und eher zielführend. Quasi 3 in 1: YaCy, VergleichsSuMa & lokale Wikipedia.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Wikipedia auf DVD in iX

Beitragvon Orbiter » Sa Jan 03, 2009 1:50 pm

tara hat geschrieben:Da gab es jeweils eine Exception & die *idx.xml wurde dennoch erstellt.

öh .. :oops: .. das ist eine sehr blutige alpha-implementierung, die den ersten Aufruf der Seite nutzt um die Index-Erstellung zu starten, dann aber einfach crasht bis der Index da ist. Das ist nicht sehr schön, um das richtig zu machen müsste noch ein bisschen Logik drumherumgebaut werden, die dann ausgibt dass der Index gerade erstellt wird, und das man noch ein bisschen warten muss.

tara hat geschrieben:Interessant fände ich es auch, wenn bei der Suche gleichzeitig geschaut wird, ob der Begriff im title zu finden ist (sofern man einen wikipediadump eingerichtet hat). D.h. so ähnlich wie bei der Vergleichssuche - halt nur noch mit dem lokalen wikipediadump. Es muss ja nicht der gesamte Text durchsucht werden. Der Title der Wikipediaseite ist ja meistens schon aussreichend und eher zielführend. Quasi 3 in 1: YaCy, VergleichsSuMa & lokale Wikipedia.

Das fügt sich in eine recht alte Idee ein, die f1ori beim 25c3 auch nochmal angeregt hat: 'Treffer raten'. Dazu könnte man eine Liste von URL-Pattern definieren, in die das Suchwort einfach eingefügt wird, und mit den anderen Ergebnissen in den Snippet-Fetch geht. So könnte man deine Idee einfach durch Konfiguration implementieren, und f1ori's Idee auch. Um das weiter zu generalisieren bräuchte man ein Meta-Suche Modul Konzept, wo das 'Treffer raten' ein Modul wäre, das man mit so einem Pattern füttert.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Off-Topic

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast