Parser für EPUB

Ideen und Vorschläge sind willkommen.

Parser für EPUB

Beitragvon Low012 » Sa Jul 04, 2009 6:19 pm

Da ich neuerdings einen E-Reader besitze, bin ich an frei verfügbaren Büchern interessiert. Es gibt zwar allerhand PDFs, aber die Lesbarkeit ist auf den Readern nicht besonders gut, weil die Formatierung der Texte nicht mit dem übereinstimmt, was der Reader gut anzeigen kann. Entweder bekommt man die Texte im Originallayout zu sehen, aber mit extrem kleinen Buchstaben oder aber Buchstaben in lesbarer Größe, aber mit Zeilenumbrüchen teilweise im Wort (stört den Lesefluss extrem). Das EPUB-Format ist für solche Reader viel besser geeignet. Die Dateien bestehen offenbar aus gezipptem XML und sollten daher mit machbarem Aufwand parsbar sein. Ob es einen fertigen Parser in Java gibt, weiß ich nicht, ich habe aber auch noch nicht besonders intensiv gesucht. Dank XML sollte aber auch ein eigener Parser schnell geschrieben sein.

Das Beste ist aber, dass obwohl Google und Sony wohl kostenlose E-Books (wenigstens für den Sony-Reader) anbieten, die Suchergebnisse bei Google mit der Einschränkung "filetype:epub" recht mager sind (jedenfalls mit den paar Beispielen, die ich probiert habe). Wenn YaCy bei der Suche nach E-Books besser wäre als Google, wäre das zumindest für mich ein Grund, YaCy öfter mal zu benutzen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Parser für EPUB

Beitragvon apfelmaennchen » Di Jul 07, 2009 6:20 am

ePub ist im Prinzip ein Zip-Archiv mit folgender Struktur:
Code: Alles auswählen
  mimetype
  META-INF/
    container.xml
  inhalt.opf
  inhalt.ncx
  inhalt.xhtml

Ob der Yacy Zip-Parser allerdings .ePub als Zip-Archiv erkennt weiss ich nicht.
Der Buchtext findet sich in inhalt.xhtml, mit Blick auf die Navigatoren könnte man zusätzlich Metadaten aus den anderen XMLs ziehen.
Siehe dazu auch: http://de.wikipedia.org/wiki/EPUB#Aufba ... EPUB-Datei

Theoretisch ist also in YaCy schon alles da, was man braucht um ePub zu indexieren.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Parser für EPUB

Beitragvon Low012 » Di Jul 07, 2009 10:22 am

Ich habe mir gestern mal dieses Buch genauer angeschaut. Ich habe es einfach mal per unzip entpackt und mich durch die Dateien gehangelt und oh Wunder, das sah fast so aus, wie bei Wikipedia beschrieben. ;) Ich werde mir in den nächsten Tagen mal die entsprechenden Specs genauer anschauen, die sind ja auch auf der genannten Wikipedia-Seite verlinkt.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron