PDF - wie ist der aktuelle Status?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

PDF - wie ist der aktuelle Status?

Beitragvon wsb » Di Jan 17, 2012 1:56 pm

Versuche gerade, größere Mengen von PDF-Dateien zu crawlen etc., die Dateien sind im Bereich von einigen MByte gross/klein - aber da scheint nix zu funktionieren. Weiss jmd., wie der aktuelle Status von yacy in Sachen PDF ist?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: PDF - wie ist der aktuelle Status?

Beitragvon Orbiter » Mi Jan 18, 2012 8:30 am

Hallo Wolfgang,

oh je, ich habe da wohl ein wenig panisch und intransparent den pdf Parser per default deaktiviert weil er als Resurcenfresser und Prozesskiller kritisch erschien. Man kann ihn in einer aktuellen Version (nur updaten) in der Parserkonfiguration wieder aktivieren. In einer älteren Version gabs den Aktivierungsknopf gar nicht.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: PDF - wie ist der aktuelle Status?

Beitragvon wsb » Mi Jan 18, 2012 12:03 pm

Orbiter hat geschrieben:Hallo Wolfgang,

oh je, ich habe da wohl ein wenig panisch und intransparent den pdf Parser per default deaktiviert weil er als Resurcenfresser und Prozesskiller kritisch erschien. Man kann ihn in einer aktuellen Version (nur updaten) in der Parserkonfiguration wieder aktivieren.


Hallo Michael,

hab heute morgen auf die neuste Version (1.01/9217) upgedated, pdf-Parser ist aktiviert - aber es tut sich nix.
In den Logfiles stehen (tonnenweise) solche Zeilen:
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{TJ}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{ET}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{Q}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{Q}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{q}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: COSInt{0}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: COSFloat{0.08001882}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: COSFloat{594.96}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: COSFloat{841.92}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{re}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{W}
    yacy00.log:D 2012/01/18 10:17:04 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{n}

Sagt Dir das irgendwas?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: PDF - wie ist der aktuelle Status?

Beitragvon magge » Mi Jan 18, 2012 2:12 pm

Scheinst dasselbe Problem wie ich zu haben. Habe noch keine Lösung finden können. Paar Threads unter diesem findest du meinen.
magge
 
Beiträge: 6
Registriert: Di Dez 13, 2011 12:20 pm

Re: PDF - wie ist der aktuelle Status?

Beitragvon wsb » Mo Jan 23, 2012 4:01 pm

magge hat geschrieben:Scheinst dasselbe Problem wie ich zu haben. Habe noch keine Lösung finden können. Paar Threads unter diesem findest du meinen.

Tja, PDFs indexieren geht in yacy wohl wirklich nicht. Das ist eine heftige Einschränkung. Wissenschaftliche Literatur im Netz ist fast ausschließlich in PDF-Dateien. Mit nutch/lucene ist das kein Problem. Und da auch nutch/lucene ebenfalls in java ist, müsste es doch möglich sein, diesen Teil von dort zu übernehmen?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: PDF - wie ist der aktuelle Status?

Beitragvon Orbiter » Mo Jan 23, 2012 4:57 pm

nach einem pull Request zum pdf parser habe ich das gestern getestet und festgestellt dass der PDF Parser funktioniert. Ich sehe kein Problem.
Es gibt hier auch keine 'Magie' die lucene hat, lucene kann gar kein PDF parsen und benutzt dazu tika. Tika benutzt den gleichen Parser wie wir. Wir haben hier kein Defizit.
Wolfgang, bitte geben mir die Beispiel-URL damit ich das an den gleichen Dateien testen kann.
Oder probier mal yacy_v1.01_20120123_9184
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Bug beseitigt

Beitragvon Marek » Mi Jan 25, 2012 1:45 am

Hallo,

Ich kann das Problem bestätgen: PDFs wurden zwar gefunden, wenn das Stichwort im Filenamen war, aber nicht deren Inhalte.

Seit dem Update auf yacy_v1.01_20120123_9184 werden auch die PDF-Inhalte problemlos indiziert und gefunden (selbstverständlich wenn der Parser dafür in der Konfig nicht deaktiviert ist). Danke!

Gruss,
Marek
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Bug beseitigt

Beitragvon wsb » Mi Jan 25, 2012 3:25 pm

Marek hat geschrieben:Hallo,

Ich kann das Problem bestätgen: PDFs wurden zwar gefunden, wenn das Stichwort im Filenamen war, aber nicht deren Inhalte.

Seit dem Update auf yacy_v1.01_20120123_9184 werden auch die PDF-Inhalte problemlos indiziert und gefunden (selbstverständlich wenn der Parser dafür in der Konfig nicht deaktiviert ist). Danke!

Gruss,
Marek


Ok ja, JETZT funktioniert es :-)
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

PDF indexieren geht wieder nicht

Beitragvon wsb » Do Jan 26, 2012 11:46 am

Mit Version 9184 ging es. Nun habe ich leichtsinnigerweise auf 9262 upgedated und schon geht's wieder nicht. Als Test versuchte ich, EINE Seite zu indexieren: http://www.pedocs.de/volltexte/2008/121/pdf/heft78.pdf - Crawltiefe=0. Hier die Fehlermeldung
Code: Alles auswählen
Error with URL input "http://www.pedocs.de/volltexte/2008/121/pdf/heft78.pdf": java.io.IOException: REJECTED EMPTY RESPONSE BODY 'HTTP/1.1 200 OK' for URL http://www.pedocs.de/volltexte/2008/121/pdf/heft78.pdf
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

PDF indexieren geht (nun doch) wieder

Beitragvon wsb » Fr Jan 27, 2012 3:34 pm

Mit 1.01/9275 geht's wieder :-)

(wer fummelt denn da immerzu dran rum? => never touch a running system! ;-)
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron