phpbb sql Dump -> XML?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

phpbb sql Dump -> XML?

Beitragvon Orbiter » Mi Mai 06, 2009 9:42 am

Ich würde gerne phpbb Dumps nach XML übersetzen, damit man die als Surrogat in YaCy einlesen kann, statt das Forum zu crawlen. Gibt es ein Tool um phpbb dumps nach XML zu übersetzen? Optimalerweise sollte XML im DC Schema dabei raus kommen. Das Format ist dabei hier beschrieben:
viewtopic.php?p=13852#p13852
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon dulcedo » Fr Mai 08, 2009 6:40 am

In dem Fall würde ich eine ganz allgemeine Schnittstelle MySQL->XML benutzen die es mit Sicherheit schon gibt. Die allermeisten Foren und sonstigen CMS arbeiten ja mit solch einer DB und die Struktur einzelner Artikel oderThreads/Postings je nach Anwendung ähnlich.
Hier ist das Prinzip erklärt in PHP wohl recht einfach, in Java dann erst recht und wohl auch sinnvoller. Das ist dann aber nicht mein Gebiet, ich habe es nur mal in PHP ähnlich euerem Crawler aus HTML ausgelesen.
Dieses Tool muss dann der Betreiber benutzen um seine DB auszulesen und XML-Dumps für YaCy erzeugen. Optional gibt er seine MySQL-DB für einen Peer frei (über die IP), dann kann der direkt auslesen, das wäre das Optimum, sicher auch sehr performant! (+ressourcenschonend für den auszulesenden Server)
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: phpbb sql Dump -> XML?

Beitragvon dulcedo » Fr Mai 08, 2009 10:29 am

Ergänzung: Das hier ist es: http://mysqludf.com/lib_mysqludf_xql/

Fehlt nur noch der Kontakt/Genehmigung des Betreibers, den braucht man ja aber sowieso um einen Dump zu erhalten. Bei umfangreichen Crawls hat die Kooperation (Freigabe der mysql-DB) für den Betreiber den Vorteil der Res-Schonung und kein Wartungsaufwand, der Peer stellt das Interface / liest die DB. Man braucht dann nur noch ein forenspezifisches Template.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: phpbb sql Dump -> XML?

Beitragvon bluumi » Fr Mai 08, 2009 12:29 pm

Nun, das würde mich natürlich selbst sehr interessieren. Habe ein phpBB2 Forum, da kann ich SQL Dumpen wie freudig (via myPHPAdmin), aber erwähntes Lib habe ich vielleicht nicht drauf, kann mal schauen ob ich "sotief" runterdarf, da ich keinen root account habe.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Fr Mai 08, 2009 12:50 pm

inzwischen glaube ich das man das anders angehen kann. Es scheint gar nicht schwer zu sein, einen forums-Dumper nach Dublin Core, unser neues Hausformat für die Surrogate, aufgrund von Webabfragen zu bauen. Schaut euch mal den Link zu meinem ersten Posting hier in diesem Topic an:
Code: Alles auswählen
http://forum.yacy-websuche.de/viewtopic.php?p=14646

Man kann die p=... alle einzeln durchgehen, und erhält dabei eine schöne xml zurück, denn das phpbb liefert xhtml zurück: (source von Link oben vereinfacht)
Code: Alles auswählen
<div id="p14646" class="post bg2 online">
      <div class="postbody">
         <h3 class="first"><a href="#p14646">phpbb sql Dump -&gt; XML?</a></h3>
         <p class="author">Orbiter</a> am Mi Mai 06, 2009 9:42 am </p>
         <div class="content">Ich würde gerne phpbb Dumps nach XML übersetzen, damit man die als Surrogat in YaCy einlesen kann, statt das Forum zu crawlen. Gibt es ein Tool um phpbb dumps nach XML zu übersetzen? Optimalerweise sollte XML im DC Schema dabei raus kommen.
      </div>
   </div>

Im gleichen xml bekommt man dann noch mehr records zu p=... die man dann schon mal abhaken kann. Dann geht man zum nächsten 'freien' noch nicht erfassten p=... und bekommt das nächste xhtml mit einigen Records. Die Records kann man schön auf DC mappen.

Auf die Art liessen sich Board-Dumper für verschiedene Board-Typen bauen, ich glaube die sind alle mehr oder weniger ähnlich. Und mit einer Suche wie ich sie in kürze plane mit Navigatoren zu Autoren und Topics könnten wir eine Board-Suche anbieten die wirklich sich von den eingebauten Suchfunktionen durch mehr Recherchefunktionen und besseren Ergebnissen abhebt.

Foren bieten aussergewöhnlich gute Merkmale für ein interessantes Ranking:
- Autoren können aufgrund ihrer Postings und den Antworten auf ihre Postings gerankt werden.
- Artikel können aufgrund ihres Autors und der Position im Topic gerankt werden (1. und letztes sind wohl immer die interessantesten); ausserdem scheint die Anzahl der Folgeartikel ein interessantes Posting auszudrücken.
- Es bieten sich natürliche Navigatoren an: Forum, Topic, Autor.
- Foreneinträge sind statisch, man muss nicht immer wieder die Aktualität einzelner Artikel checken. Das ist sehr viel einfach als bei Webseiten, wo man mit Update-Daten rechnen muss.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon PCA42 » Fr Mai 08, 2009 1:08 pm

Kann das sein, dass das hier nur so gut funktioniert, weil es sich um eine phpBB3-Forum handelt, das bereits für den Yacy-Bot optimiert ist? Bei anderen Foren sollte sich das also (leider) umständlicher gestalten.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Fr Mai 08, 2009 1:37 pm

nö, ich hab hier am Standard phpbb3 nichts geändert, nur das Icon dazugefriemelt.

Schaut mal ioff.de, das ist laut http://rankings.big-boards.com/?filter=all,DE das größte deutsche Board. Die verwenden vBulletin, das ist auch ganz einfach:
Code: Alles auswählen
http://www.ioff.de/showthread.php?t=346019

beispielsweise zeigt auf den Thread t=346019. Man kann einfach den Zähler erhöhen, und hinten dran ein &page=2 schreiben.
Das ist auch einfach, und nach big-boards.com ist vBulletin so ziemlich die meistgenutzt Boardsoftware.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon dulcedo » Fr Mai 08, 2009 3:39 pm

PCA42 hat geschrieben:Kann das sein, dass das hier nur so gut funktioniert, weil es sich um eine phpBB3-Forum handelt, das bereits für den Yacy-Bot optimiert ist? Bei anderen Foren sollte sich das also (leider) umständlicher gestalten.

Ich habe das für vBulletin gemacht, eine fürchterliche Frickelei die wichtigen Postinginfos zu parsen (Autor, Datum, etc), bei jedem Update der Forensoftware oder sogar des Layouts können sich die Tags die die Inhalte des einzelnen Postings bezeichnen ändern. Deswegen habe ich das Projekt auch aufgegeben, an die DB selbst kam ich nicht ran.
Ansonsten ist das wirklich so wie Orbiter geschrieben hat möglich, mit genauen Templates für das jeweiligen Forenlayout (next/prev/up/home/...). Oder aber man nimmt die komplette HTML-Seite des Einzelpostings und indexiert sie, dann aber wie schon gesagt schwer die Einzelinformationen pro Posting zu parsen. Wenn man nur unnütze/sich ständig wiederholende Links aussortieren möchte ist das so möglich.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Fr Mai 08, 2009 4:30 pm

echt, du hast sowas schon mal gemacht? java? vielleicht probieren wir es doch noch mal. Ist der Code frei?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon dulcedo » Fr Mai 08, 2009 5:19 pm

Für ein einziges Forum, und dort über einen gewissen Zeitraum Threads zu einem Thema ausgelesen.
Das ist sicher nichts für YaCy weil viel zu unflexibel. Ich hatte mich damals mit dem Thema befasst, welche Informationen in so einer Foren HTML-Seite stecken und wie man sie extrahiert. Das ist natürlich für jedes Forum unterschiedlich, als Anwendung ein ganz normaler Textparser in PHP. Durch die einzlenen Postings dann durchhangeln wie von dir angedacht, das ist einfach.
Ich bin dann aber zu dem Schluss gekomment dass man am optimalsten direkt die MySQL Daten ausliest, wenn die Möglichkeit dazu. Oder als Zwischenschritt den Dump wie bei den Wikis. Dann völlig unabhängig vom Layout.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Mi Mai 27, 2009 4:10 pm

hab das feature eben eingecheckt! SVN 5985
http://localhost:8080/ContentIntegrationPHPBB3_p.html
da kann man nun direkt aus mysql Datenbanken posts einlesen und in YaCy importieren. Das XML-Format, in das exportiert wird ist das YaCy Surrogate-Format, also Dublin Core entsprechend internationalem Standard. Die Dateien werden unmittelbar nach dem Exportieren indexiert. Das geht alles sehr schnell: das ganze YaCy-Forum ist in rund 3 Sekunden exportiert, und dann nach rund 1 Minute vollständige indexiert, bei rund 13000 PPM auf einem dual-core. Jetzt können die großen Boards kommen...
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon apfelmaennchen » Mi Mai 27, 2009 6:33 pm

OT: Macht es Sinn, den YaCy Forum Index mit bei der Wiki-Suche mit anzubieten? Immerhin, wer da sucht...sucht Hilfe....die er/sie vielleicht auch im Forum finden könnte!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Mi Mai 27, 2009 9:49 pm

klar, hab mir schon überlegt das eine konsolidierte Suche wohl gar nicht so schlecht sei. Nur muss die Suche auch insgesamt gut aussehen, und diese Verbindung der verschiedenen Bereichen transparent machen. Das ist nun wohl mit den site-Navigatoren einfach. Wir müssten nur sehen wie wir das in das Such-Widget rein bekommen. du kannst ja mal gucken wie man da eine Navigatorspalte rein machen kann, und ich mache mir Gedanken über eine Repräsentation der Navigatoren als XML bzw. json. Da will ich ein wenig bei solr abgucken, die nennen das Feature 'facets'
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Mi Mai 27, 2009 9:52 pm

ich wollte eigentlich hier für alle ein Forumsdump anbieten, damit das jeder mal ausprobieren kann, aber leider hat so ein dump viel zu viele sensible Informationen, wie email-Adressen und den md5 des PW, den man brute-force knacken könnte. Ein Teilexport geht auch nicht, weil gerade in den benötigten Tabellen (user) für die Querverknüpfung von User-Id zu Nickname das sensible Zeug drin steht.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon bluumi » Mi Mai 27, 2009 11:28 pm

Orbiter hat geschrieben:viele sensible Informationen, benötigten Tabellen (user) sensible Zeug drin steht.

Kann denn nicht in dem dump schlicht die sensiblen felder "nullen" ?
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Mi Mai 27, 2009 11:52 pm

dann müsste ich erst einen Export machen, den dann in eine neue DB importieren, dort nullen, dann wieder exportieren. Geht im Prinzip.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon dulcedo » Do Mai 28, 2009 3:01 am

Ich versetze mich in den Forenbetreiber und zucke da auch zuerst zusammen, die Datenbank ist eigentlich heilig. Dann sehe ich mir aber meine überlastete Suche an und vergleiche sie mit der allgemeinen phpBB Foren-Suche die YaCy bald können wird, dann ist die Entscheidung schon leichter. Jetzt muss ich nur noch sicherstellen dass meine sensiblen Informationen sicher sind und das kann ich weil ich OpenSource Software benutze und zwar selbst. Ich will mir aber keinen eigenen Peer installieren, also benutze ich einen Teil dieser Open-Source und lasse sie selbst lokal laufen, erzeuge ein Dump das ich einsehen kann und liefere es dem Peer der mein Forum indexiert. Das würde ich machen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: phpbb sql Dump -> XML?

Beitragvon lulabad » Do Mai 28, 2009 9:06 am

Wie ist das dann eigentlich mit Einträgen, die nachträglich aus dem Forum gelöscht werden?
Also jemand macht im Forum einen neuen Beitrag, dieser ist Spam. Nun wird ein Dump erzeugt und dieser in yacy eingepflegt. Nun kommt der Admin und löscht diesen Beitrag und beim nächsten dump ist dieser Beitrag nicht mehr vorhanden. Nun würde ich eigentlich erwarten, dass dieser auch aus yacy entfernt wird, was natürlich so nicht möglich ist.
Möglich ist es natürlich schon, wenn ich immer einen kompletten Dump des forums mache und vor dem import einfach den kompletten Index lösche.

Ich stell mir auch vor, dass jemand vielleicht ein Plugin baut, welches beim Erstellen eines Beitrags auch gleich eine xml Datei erstellt, welche man direkt ins yacy Verzeichnis kopieren kann, dann wird der neue Beitrag sofort indexiert und steht in der Suche zur Verfügung. Dann allerdings gibt es das obige Problem auf jeden Fall. Hier könnte ich mir vorstellen, dass man eine xml Datei machen kann, mit einem Lösch-befehl einer URL.
Wobei mir gerade einfällt, dass ein Beitrag ja eigentlich keine eigene URL hat, sondern die URL vom Thema hat.
Wie kann man dann eigentlich ungewolltes wieder aus dem Index löschen?
Obwohl, man kann ja das ganze Thema löschen und neu indexieren.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Do Mai 28, 2009 9:21 am

wenn ein Beitrag gelöscht wurde wird YaCy den entsprechenden Eintrag beim Snippet-Fetch rauskicken.
Aber es stimmt schon, man bräuchte eine definierte Löschung, die man nur bekommt wenn das Forum ein Löschprotokol erzeugt, und man dieses ebenfalls als XML-Anweisung beim Dumpen herausarbeitet.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: phpbb sql Dump -> XML?

Beitragvon Orbiter » Fr Mai 29, 2009 10:54 am

damit das hier mal jeder ausprobieren kann wie so ein XML dump aus phpBB3 aussieht, poste ich hier das aus dem YaCy-Forum generierte Surrogat.
Weil die tar.gz Archiv-Datei zu groß war für ein Posten im Forum, habe ich das in 3 Teile gesplittet.
Die Files auspacken und die xml einfach in DATA/SURROGATES/in legen, und schon gehts automatisch in den Indexierer.
Dateianhänge
forum.yacy-websuche.de.fullexport-20090527144828-part3.tar.gz
YaCy-Forum Fullexport als Surrogat Teil 3
(1.38 MiB) 149-mal heruntergeladen
forum.yacy-websuche.de.fullexport-20090527144828-part2.tar.gz
YaCy-Forum Fullexport als Surrogat Teil 2
(1.52 MiB) 145-mal heruntergeladen
forum.yacy-websuche.de.fullexport-20090527144828-part1.tar.gz
YaCy-Forum Fullexport als Surrogat Teil 1
(1.23 MiB) 161-mal heruntergeladen
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste