PDF crawlen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

PDF crawlen

Beitragvon SharpView » So Okt 05, 2008 2:50 pm

Hallo,

ich teste gerade YaCy für unser Intranet. Optimal wäre wenn ich im Repository-Verzeichnis eine html-Datei mit Links zu Intranet-sites abspeicheren könnte, und in verschiedene Unterverzeichnisse PDFs, Word usw. Dokumente uploaden könnte. Das Ganze sollte dann automatisch indexiert werden. Klappt soweit gut, die Link-Liste wird geparst und sogar die Unterverzeichnisse durchsucht YaCy automatisch (auch wenn in der Linkliste keinerlei Bezug zu den Unterverzeichnissen besteht, Klasse!). Leider werden die PFD-Dokumente nicht geparst/erscheinen nicht in den Index. Ist es überhaupt möglich YaCy so einzusetzen wie oben beschreiben? Hat vielleicht jemand eine Idee wieso die PDF-Dokumente nicht geparst werden?

Gruß,

Martin.
SharpView
 

Re: PDF crawlen

Beitragvon Orbiter » So Okt 05, 2008 5:05 pm

also das sollte alles so gehen wie du es probiert hast, und so ist es auch gedacht.
PDFs sollten gehen. Guck mal bitte in /Settings_p.html?page=parser
da sollten alle Parser an sein, speziell der pdf parser.
Es könnte noch ein anderes Problem da sein: /Settings_p.html?page=crawler
da gibt es eine Einstellung für die maximale Dateigröße. Wenn deine pdfs größer sind, werden sie nicht beachtet. Das ist eine Schutzfunktion weil wir schon mal Dokumente im Gigabytebereich angetroffen haben, und das zu einem Crash geführt hat. Wenn du da für die Begrenzung eine -1 einträgst wird nicht mehr nach Größe gefiltert.

weitere Möglichkeiten: ganz genau im Log nachgucken ob die PDFs in der Crawl queue gelandet sind, und ob sie abgelehnt wurden. Grund steht auch im Log.
Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: PDF crawlen

Beitragvon SharpView » So Okt 05, 2008 6:38 pm

Hallo und danke für die schnelle Antwort.

Also, das Dokument hat eine größe von 166KB und liegt direkt im Repository Verzeichnis. Ich habe trotzdem den Wert für die max. Größe auf -1 umgeändert.

/Settings_p.html?page=parser ergibt bei mir folgendes Bild

With this settings you can activate or deactivate parsing of additional content-types based on their MIME-types.
For a detailed description of the various MIME-types take a look at http://www.iana.org/assignments/media-types/
URLREDIRECTOR PROXY ICAP IMAGE CRAWLER Mime-Type Parser Usage
Enable all parsers

Enable all parser ist nicht anklickbar, unter URLREDIRECTOR , PROXY, ICAP, IMAGE und CRAWLER ist jeweils eine Checkbox mit Häckchen gesetzt.

In den Server-Logs konnte ich keine Hinweise auf Fehler betreffende pdf finden. Es scheint so als werden die PDFs aus irgend ein Grund ignoriert.


Fehlermeldungen aus den Logfiles

2008/10/05 19:14:45 BALANCER double-check has failed for urlhash RI4GXIssmsTc in urlNoticeCoreStack - fixed

E 2008/10/05 19:22:11 SERVER receive interrupted - exception 2 = Connection reset

E 2008/10/05 19:22:12 SERVER receive interrupted - exception 2 = Connection reset

E 2008/10/05 19:23:24 ClassLoader class .htroot.xml.queues_p not defined: java.lang.LinkageError: loader (instance of de/anomic/server/serverClassLoader): attempted duplicate class definition for name: "xml/queues_p"

W 2008/10/05 19:23:24 FILEHANDLER Unexpected error while processing query.
Session: Session_127.0.0.1:18893#7
Query: /xml/queues_p.xml
Client: localhost
Reason: java.lang.NullPointerException
java.lang.NullPointerException
at de.anomic.http.httpdFileHandler.rewriteMethod(httpdFileHandler.java:972)
at de.anomic.http.httpdFileHandler.invokeServlet(httpdFileHandler.java:994)
at de.anomic.http.httpdFileHandler.doResponse(httpdFileHandler.java:598)
at de.anomic.http.httpdFileHandler.doGet(httpdFileHandler.java:241)
at de.anomic.http.httpd.GET(httpd.java:485)
at sun.reflect.GeneratedMethodAccessor36.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at de.anomic.server.serverCore$Session.listen(serverCore.java:737)
at de.anomic.server.serverCore$Session.run(serverCore.java:618)

E 2008/10/05 19:23:29 ClassLoader class .htroot.xml.queues_p not defined: java.lang.LinkageError: loader (instance of de/anomic/server/serverClassLoader): attempted duplicate class definition for name: "xml/queues_p"

W 2008/10/05 19:23:29 FILEHANDLER Unexpected error while processing query.
Session: Session_127.0.0.1:18893#8
Query: /xml/queues_p.xml
Client: localhost
Reason: java.lang.NullPointerException
java.lang.NullPointerException
at de.anomic.http.httpdFileHandler.rewriteMethod(httpdFileHandler.java:972)
at de.anomic.http.httpdFileHandler.invokeServlet(httpdFileHandler.java:994)
at de.anomic.http.httpdFileHandler.doResponse(httpdFileHandler.java:598)
at de.anomic.http.httpdFileHandler.doGet(httpdFileHandler.java:241)
at de.anomic.http.httpd.GET(httpd.java:485)
at sun.reflect.GeneratedMethodAccessor36.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at de.anomic.server.serverCore$Session.listen(serverCore.java:737)
at de.anomic.server.serverCore$Session.run(serverCore.java:618)
SharpView
 

Re: PDF crawlen

Beitragvon Lotus » So Okt 05, 2008 7:58 pm

Bitte einmal über "System Update" ein Update auf Version "main 0.61/5248" oder größer machen. Dann funktioniert es.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: PDF crawlen

Beitragvon SharpView » So Okt 05, 2008 9:19 pm

Vielen Dank!

Funktioniert jetzt einwandfrei!
SharpView
 


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron