PDF Parser Problem

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

PDF Parser Problem

Beitragvon magge » Di Dez 13, 2011 12:29 pm

Hallo zusammen,

ich versuche aktuell .pdf Dateien zu indexieren und stoße dabei auf diverse Probleme. Mit Version 1.0 (8121) war es mir zumindest möglich Inhalte aus einigen PDFs zu indexieren. Bei Dateien größer als ungefähr 2 MB schien die Indexierung jedoch zu scheitern und der Inhalt wurde nicht geparst. Standardmäßig ist das Limit für die Dateigröße ja bei 10 MB, daher sollten PDFs von 4-6 MB eigentlich verarbeitet werden. Habe nun auf Version 1.01 (9000 und danach 9025) umgestellt und dort scheinen garkeine PDFs mehr durchforstet zu werden. Zumindest wird statt dem geparsten Text einfach die URL in das Textfeld eingefügt. Sind dies Probleme des PDF Parsers oder schließen die beiden Probleme auf eine fehlerhafte Konfiguration oder ähnliches ? Bei einem Fallback auf 8121 ist das Verhalten wieder wie vorher.

edit: Über den URL Viewer in 9025 taucht in der url ein -UNRESOLVED_PATTERN- auf.

Vielen Dank im Voraus.
magge
 
Beiträge: 6
Registriert: Di Dez 13, 2011 12:20 pm

Re: PDF Parser Problem

Beitragvon Lotus » Do Dez 22, 2011 7:41 pm

Eine ganz vage Vermutung: es könnte sein, dass zu wenig Speicher für den Parser frei ist und er deshalb abbricht. Von 1.0 zu 1.01 sollte sich nichts verändert haben.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: PDF Parser Problem

Beitragvon magge » Mi Jan 04, 2012 9:51 am

Hättest du einen möglichen Lösungsvorschlag ? Gibt es ein Setting in YaCy mit dem ich deine Theorie überprüfen könnte ?
magge
 
Beiträge: 6
Registriert: Di Dez 13, 2011 12:20 pm

Re: PDF Parser Problem

Beitragvon Quix0r » Mi Jan 04, 2012 12:04 pm

Im Logbuch DATA/LOG/yacy*.log muesste ein OutOfMemoryError stehen. Solange du genuegend physikalischen Speicher im Rechner verbaut hast, lasse zirka 1-2 GB fuer Linux - Windows 3-4 GB - uebrig, weise einfach mehr YaCy zu, geht unter /Performance_p.html.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: PDF Parser Problem

Beitragvon magge » Mi Jan 04, 2012 3:10 pm

Ein solcher Fehler taucht in den Logs nicht auf. Das Erhöhen der RAM-Ausnutzung hilft daher auch nicht. Die Logs sind nach dem Parsen mit Zeilen wie diesen gefüllt:
Code: Alles auswählen
...
D 2012/01/04 15:05:30 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{Q}
D 2012/01/04 15:05:30 org.apache.pdfbox.util.PDFStreamEngine processing substream token: PDFOperator{q}
D 2012/01/04 15:05:30 org.apache.pdfbox.util.PDFStreamEngine processing substream token: COSInt{1}
D 2012/01/04 15:05:30 org.apache.pdfbox.util.PDFStreamEngine processing substream token: COSInt{0}
...

Ein Fehler wird nach der Verarbeitung nicht geloggt.
magge
 
Beiträge: 6
Registriert: Di Dez 13, 2011 12:20 pm

Re: PDF Parser Problem

Beitragvon magge » Mi Jan 11, 2012 2:38 pm

Hallo nochmal,

Da das Parsing von .PDFs leider noch nicht funktioniert, hänge hier mal meine yacy.conf und ein ganz simples .pdf an, welches nicht geparst wird:

yacy.conf
Code: Alles auswählen
# This is an automatically generated file, updated by serverAbstractSwitch and initialized by defaults\yacy.init
proxyYellowList=yacy.yellow
crawlingDomFilterDepth=-1
60_remotecrawlloader_memprereq=12582912
crawlResponseDepth=0
color_searchheadline=#2200CC
crawlPause.remotesearch=10
62_remotetriggeredcrawl_busysleep=60000
content.phpbb3.dbuser=notroot
federated.service.solr.indexing.url=http://127.0.0.1:8983/solr
promoteSearchPageGreeting.homepage=http://yacy.net
bootstrapLoadTimeout=6000
parser.mime.deny=
search.result.show.pictures=false
cleanup.failedSearchURLtimeout=86400000
indexText=true
update.cycle=168
update.time.lookup=1326288143209
color_tablebottom=#FFCCCC
network.unit.update.location1=http://latest.yacy.de
clientTimeout=10000
cluster.peers.ipport=localhost:8090
restart.cycle=20
pkcs12ImportFile=
network.unit.remotecrawl.speed=1
BlackLists.Shared=url.default.black
indexTransfer.timeout=120000
seedFTPPath=
upnp.enabled=true
update.blacklist=...[123]
yacyDebugMode=false
searchProcessRemoteCount_s=10
70_surrogates_busysleep=0
color_searchurlhover=#008000
BlackLists.DefaultList=url.default.black
searchProcessRemoteCount_f=100
remoteProxyUse4SSL=true
about.headline=
adminAccountForLocalhost=true
proxyURL.rewriteURLs=domainlist
content.phpbb3.dumpfile=
heuristic.scroogle=false
proxyCacheSize=32768
searchProcessLocalCount_c=10000000
network.unit.name=webportal
peernameprefix=_anon
msgForwardingEnabled=false
filterOutStopwordsFromTopwords=true
indexControl.timeout=60000
allowUnlimitedReceiveIndexFrom=
segment.process.default_tmp=default
searchProcessLocalCount_u=10000
20_dhtdistribution_memprereq=12582912
publicAdministratorPi=false
memory.standardStrategy=true
locale.translated_html=DATA/LOCALE/htroot
defaultLinkReceiveFrequency=30
proxyURL=false
20_dhtdistribution_busysleep=15000
browserPopUpTrigger=true
cluster.peers.yacydomain=localpeer.yacy
content.phpbb3.dbtype=mysql
60_remotecrawlloader_busysleep=240000
search.result.show.size=false
searchProcessLocalTime_f=5
searchProcessRemoteCount_j=1000000
performanceProfile=defaults/yacy.init
content.phpbb3.dbport=3306
seedFTPPassword=
proxyURL.access=127.0.0.1,0:0:0:0:0:0:0:1
search.items=10
proxyIndexingLocalText=true
port=8090
memoryFreeAfterStartup=1186789440
62_remotetriggeredcrawl_memprereq=12582912
compare_yacy.right=scroogle.org
network.unit.update.location0=http://yacy.net/index.html
50_localcrawl_isPaused=false
searchProcessRemoteTime_r=8
crawlPause.localsearch=50
searchProcessLocalTime_o=10
network.unit.domain=global
remoteProxyUse4Yacy=true
yacyStatus=
crawlingCountryMustMatch=AD,AL,AT,BA,BE,BG,BY,CH,CY,CZ,DE,DK,EE,ES,FI,FO,FR,GG,GI,GR,HR,HU,IE,IM,IS,IT,JE,LI,LT,LU,LV,MC,MD,MK,MT,NL,NO,PL,PT,RO,RU,SE,SI,SJ,SK,SM,TR,UA,UK,VA,YU
indexTransfer.gzipBody=true
searchProcessRemoteTime_j=8
dataRoot=C:\\Users\\mp.EM\\YaCy
allowReceiveIndex=false
indexMedia=true
crawler.http.acceptEncoding=gzip
content.phpbb3.urlstub=http://<mydomain>/
routing.deleteOldSeeds.permission=true
content.phpbb3.tableprefix=phpbb_
surftips.BlackLists=url.default.black
tray.label=YaCy
javastart_Xmx=Xmx1200m
color_signbad=#990000
federated.service.solr.indexing.enabled=false
ramcopy=false
seedScpServerPort=
indexDistribution.gzipBody=true
thumbnailProgram=
plasmaBlueList=yacy.blue
proxy.monitorCookies=false
seedFilePath=
crawler.ftp.maxFileSize=10485760
30_peerping_memprereq=2097152
indexDistribution.startChunkSize=200
remoteProxyUse=false
remoteProxyNoProxy=10\\..*,127\\..*,172\\.(1[6-9]|2[0-9]|3[0-1])\\..*,169\\.254\\..*,192\\.168\\..*,localhost,0:0:0:0:0:0:0:1
memoryTotalAfterStartup=1205862400
crawler.clientTimeout=9000
segment.process.receipts_tmp=default
search.video=false
htDocsPath=DATA/HTDOCS
crawlingQ=false
network.unit.update.location2.key=MIIBtTCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYIAAn8bzmhk8EWOj9h+7zng1o3OlgI+LsG7lI7kVsDxyzMB/WYTpO+NKWoibFjQDFN92TKBQVAA8DQciHfolqcFfVAot9/3ipamXVGz29OAxz8i0Wty6KI6w50YrL2xAkWjx7jSBghJKlnKx3V0PaDCWqz37ogQvuxLKBFORyAjbv3O
indexForward=
wordCacheMaxCount=50000
minimumLocalDelta=0
search.BlackLists=url.default.black
color_text=#18294A
msgForwardingCmd=/usr/sbin/sendmail
update.deleteOld=30
routing.deleteOldSeeds.time=30
indexDistribution.maxChunkFails=1
index.maxReferences=0
crawlingDomMaxPages=-1
peerCycle=2
searchProcessLocalCount_s=30
color_tableheader=#5090D0
parser.extensions.deny=
40_peerseedcycle_memprereq=4194304
applicationRoot=C:\\Users\\mp.EM\\YaCy
httpd.robots.txt=locked,dirs,bookmarks,network,news,status,profile
cleanup.deletionProcessedNews=true
htTemplatePath=htroot/env/templates
server.maxTrackingCount=1000
minimumGlobalDelta=500
search.app=false
skinPath=DATA/SKINS
serverClient=*
seedUploadMethod=none
proxyCache=DATA/HTCACHE
proxyCookieBlackList=cookie.default.black
proxyIndexingLocalMedia=true
mimeTable=defaults/httpd.mime
color_legend=#65AC2A
crawlPause.proxy=10
crawler.BlackLists=url.default.black
useYacyReferer=false
searchProcessRemoteTime_s=5
segment.process.dhtout_tmp=default
content.phpbb3.ppf=1000
fileHost=localpeer
color_tableitem2=#ECF1F8
network.unit.inspection.searchverify=false
searchProcessLocalTime_c=44
listsPath=DATA/LISTS
publicTopmenu=true
msgForwardingTo=root@localhost
htRootPath=htroot
cleanup.deletionPublishedNews=true
remoteProxyUser=
promoteSearchPageGreeting.useNetworkName=false
search.excludehosth=
sessionidNamesFile=defaults/sessionid.names
seedScpPath=
enableTemplateCache=true
publicSearchpage=true
memoryFreeAfterInitAGC=1196435296
30_peerping_busysleep=30000
segment.process.localcrawling_tmp=default
searchProcessRemoteCount_c=1000000
publicSurftips=true
proxyBlueList=yacy.blue
allowDistributeIndex=false
httpc.nameCacheNoCachingPatterns=.*.ath.cx,.*.blogdns.*,.*.boldlygoingnowhere.org,.*.dnsalias.*,.*.dnsdojo.*,.*.dvrdns.org,.*.dyn-o-saur.com,.*.dynalias.*,.*.dyndns.*,.*.ftpaccess.cc,.*.game-host.org,.*.game-server.cc,.*.getmyip.com,.*.gotdns.*,.*.ham-radio-op.net,.*.hobby-site.com,.*.homedns.org,.*.homeftp.*,.*.homeip.net,.*.homelinux.*,.*.homeunix.*,.*.is-a-chef.*,.*.is-a-geek.*,.*.kicks-ass.*,.*.merseine.nu,.*.mine.nu,.*.myphotos.cc,.*.podzone.*,.*.scrapping.cc,.*.selfip.*,.*.servebbs.*,.*.serveftp.*,.*.servegame.org,.*.shacknet.nu
search.options=true
color_signgood=#009900
indexDistribution.maxOpenFiles=800
color_borderline=#888888
network.unit.dhtredundancy.junior=1
timeout_text=10000
memoryFreeAfterInitBGC=1158811248
segment.process.dhtin_tmp=default
promoteSearchPageGreeting.largeImage=/env/grafics/YaCyLogo_120ppi.png
segment.process.queries_tmp=default
trayIcon=true
remoteProxyPort=4239
searchProcessRemoteCount_u=1000
federated.service.yacy.indexing.enabled=true
crawlingFilter=.*
keyStorePassword=
network.unit.dht.partitionExponent=0
50_localcrawl_busysleep=20
90_cleanup_busysleep=300000
keyStore=
browserPopUpPage=index.html
proxy.BlackLists=url.default.black
memoryTotalAfterInitAGC=1205862400
60_remotecrawlloader_isPaused=false
update.concept=any
40_peerseedcycle_busysleep=1200000
searchProcessLocalTime_u=20
searchProcessRemoteTime_c=44
heuristic.site=false
staticIP=
indexDistribution.minChunkSize=10
crawler.smb.maxFileSize=100000000
network.unit.definition=defaults/yacy.network.webportal.unit
search.audio=false
network.unit.tenant.agent=
update.process=manual
search.text=true
search.result.show.date=true
workPath=DATA/WORK
use_proxyAccounts=true
seedScpPassword=
network.unit.description=Personal Web Search Portal
performanceSpeed=100
disk.free.hardlimit=1000
network.unit.access.blacklist=
network.unit.domain.nocheck=false
remoteProxyPwd=
performanceIO=10
proxy.sendXForwardedForHeader=true
crawler.file.maxFileSize=100000000
crawlingIPMustMatch=.*
update.time.deploy=1326288208090
indexDistribution.maxChunkSize=1000
color_tableitem=#DEE6F3
proxyIndexingRemote=false
crawler.MaxActiveThreads=200
server.maxTrackingHostCount=100
locale.source=locales
heuristic.blekko=false
search.excludehosts=
indexer.slots=100
storeHTCache=true
stacker.slots=2000
search.result.show.metadata=true
server.servlets.submitted=/yacy/hello.html,/yacy/query.html,/rssTerminal.html,/portalsearch/yacy-portalsearch.js,/api/feed.rss,/Status.html,/ConfigBasic.html,/ViewFile.html,/Performance_p.html,/Steering.html,/ConfigUpdate_p.html
proxyStoreHTCache=true
locale.language=default
pkcs12ImportPwd=
crawlingIfOlder=-1
upnp.remoteHost=
60_remotecrawlloader_idlesleep=10000
crawlingDirectDocByURL=true
90_cleanup_idlesleep=300000
searchProcessLocalTime_s=5
network.unit.search.time=4
remotesearch.maxtime=1000
isTransparentProxy=false
indexTransfer.maxOpenFiles=800
searchProcessLocalCount_f=100
WikiAccess=admin
searchProcessLocalCount_r=100000
proxyYacyOnly=false
crawlingDepth=3
network.unit.protocol.control=uncontrolled
crawlOrderDepth=0
promoteSearchPageGreeting.smallImage=/env/grafics/YaCyLogo_60ppi.png
javastart_Xms=Xms1200m
xsstopw=true
62_remotetriggeredcrawl_isPaused=false
proxyCookieWhiteList=cookie.default.black
svnRevision=9178
proxyClient=localhost,127\\.0\\.0\\.1,192\\.168\\..*,10\\..*,0:0:0:0:0:0:0:1.*
remoteProxyHost=192.168.2.2
network.unit.dhtredundancy.senior=1
crawler.http.maxFileSize=10485760
color_signother=#000099
content.phpbb3.dbhost=localhost
indexDistribution.timeout=60000
50_localcrawl_idlesleep=2000
restart.time=0
connectionKeepAliveSupport=true
segment.process.remotecrawling_tmp=default
crawlResponse=false
update.time.download=1326288194112
70_surrogates_idlesleep=10000
network.unit.access.whitelist=10\\..*,127\\..*,172\\.(1[6-9]|2[0-9]|3[0-1])\\..*,169\\.254\\..*,192\\.168\\..*,localhost
repositoryPath=DATA/HTDOCS/repository
20_dhtdistribution_idlesleep=30000
remotesearch.maxcount=20
adminAccountBase64MD5=0000a6cc62dbe44759e9b6c6bd54497a6c86
compare_yacy.left=YaCy
searchProcessLocalTime_r=8
search.result.show.parser=true
proxy.clientTimeout=30000
searchProcessLocalCount_o=100
seedScpServer=
network.unit.update.location2=http://www.yacystats.de/yacybuild/
seedScpAccount=
htDefaultPath=htroot
network.unit.dht=false
dictionaries=DATA/DICTIONARIES
62_remotetriggeredcrawl_idlesleep=10000
surrogates.in=DATA/SURROGATES/in
searchProcessRemoteTime_u=20
cgi.allow=false
crawler.http.accept=text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
searchProcessLocalTime_j=8
allowDistributeIndexWhileCrawling=false
search.verify.delete=false
searchProcessRemoteTime_f=5
search.navigation=hosts,authors,namespace,topics,filetype,protocol
90_cleanup_memprereq=0
searchProcessRemoteTime_o=10
seedFTPServer=
secureHttps=true
indexReceiveBlockBlacklist=true
federated.service.solr.indexing.sharding=MODULO_HOST_MD5
segment.process.proxy_tmp=default
searchProcessLocalCount_j=1000000
search.target=_self
disk.free=3000
10_httpd_memprereq=0
restart.process=off
cluster.mode=publicpeer
search.verify=ifexist
content.phpbb3.dbpw=joshua
crawlingIPMustNotMatch=
search.image=true
memory.acceptDHTabove=50
color_background=#FFFFFF
timeout_media=15000
update.onlySignedFiles=1
about.body=
releases=DATA/RELEASE
news.BlackLists=url.default.black
currentSkin=pdblue
proxyPrefetchDepth=0
server.maxTrackingTime=3600000
30_peerping_idlesleep=30000
restart.hour=03
indexPrimaryPath=DATA/INDEX
network.unit.update.location3=https://latestyacy.f1ori.de/
10_httpd_busysleep=0
defaultWordReceiveFrequency=100
proxy.sendViaHeader=true
10_httpd_idlesleep=0
storeTXCache=true
javastart_priority=10
xdstopw=true
content.phpbb3.dbname=forum
YaCyHop=true
exceed134217727=false
crawlOrder=true
cgi.suffixes=cgi,pl
dht.BlackLists=url.default.black
40_peerseedcycle_idlesleep=1800000
defaultFiles=index.html,index.htm,default.html,search.html,console.html,control.html,welcome.html,wiki.html,forum.html,blog.html,email.html,content.html,monitor.html,share.html,dir.html,readme.txt
seedFTPAccount=
crawler.http.acceptLanguage=en-us,en;q=0.5
memory.disabledDHT=false
browserintegration=false
indexControl.gzipBody=true
memoryTotalAfterInitBGC=1205862400
surrogates.out=DATA/SURROGATES/out
70_surrogates_memprereq=12582912
xpstopw=true
crawler.http.acceptCharset=ISO-8859-1,utf-8;q=0.7,*;q=0.7
federated.service.solr.indexing.schemefile=solr.keys.default.list
bindPort=
httpdMaxBusySessions=200
searchProcessRemoteCount_o=1000
color_searchurl=#008000
wikiParser.class=de.anomic.data.wikiCode
allowDistributeIndexWhileIndexing=true
rankingProfile=
filesize.max.other=8589934591
50_localcrawl_memprereq=12582912
searchProcessRemoteCount_r=1000
promoteSearchPageGreeting=P2P Web Search
filesize.max.win=2147483647
externalRedirector=
adminAccount=
trayIcon.force=false
# EOF


Vielleicht kann jemand versuchen die PDF bei sich zu parsen (enthält nur Text). Eventuell kann jemand Rückschlüsse auf das Problem in der Config finden.
Dateianhänge
Lorem_ipsum.zip
(93.31 KiB) 99-mal heruntergeladen
magge
 
Beiträge: 6
Registriert: Di Dez 13, 2011 12:20 pm

Re: PDF Parser Problem

Beitragvon Vega » Do Jan 12, 2012 11:25 pm

Hallo,

ich schaue mir das am Wochenende mal an, mal sehen ob ich das Reproduzieren kann.

Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: PDF Parser Problem

Beitragvon Orbiter » Mo Jan 23, 2012 5:52 pm

hallo magge,

ich hab dein PDF ausprobiert und kann das Ding ohne Probleme parsen. Bitte probiere mal git 696ee5fc16f33269fde66fc0aa40d06355072d9f oder aus dem auto-Updater yacy_v1.01_20120123_9184
Vorher bei den Parser-Einstellungen gucken dass pdf auch aktiviert ist.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Bug beseitigt

Beitragvon Marek » Mi Jan 25, 2012 1:45 am

Hallo,

Ich kann das Problem bestätgen: PDFs wurden zwar gefunden, wenn das Stichwort im Filenamen war, aber nicht deren Inhalte.

Seit dem Update auf yacy_v1.01_20120123_9184 werden auch die PDF-Inhalte problemlos indiziert und gefunden (selbstverständlich wenn der Parser dafür in der Konfig nicht deaktiviert ist). Danke!

Gruss,
Marek
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron