HTTP ERROR 500 - /Crawler_p.html

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » Mi Sep 03, 2014 9:56 am

Ich übergebe dem Crawler regelmäßig unterschiedliche URL-Files via cronjob. Das Hochladen der Files erfolgt nur dann, wenn der Crawler unausgelastet ist. Dies deswegen, damit der Crawler nicht überlastet und letztendlich abstürzt. Dieser Vorgang funkioniert einwandfrei.

Aber nach eine gewissen Zeit funktioniert der Crawler nicht mehr und liefert folgende Fehlermeldung zurück:

HTTP ERROR 500

Problem accessing /Crawler_p.html. Reason:

Server Error

Caused by:

javax.servlet.ServletException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html
at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:815)
at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:317)
at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:379)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:707)
at javax.servlet.http.HttpServlet.service(HttpServlet.java:790)
at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:769)
at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143)
at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:542)
at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:223)
at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1125)
at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:185)
at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1059)
at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33)
at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.eclipse.jetty.server.Server.handle(Server.java:485)
at org.eclipse.jetty.server.HttpChannel.handle(HttpChannel.java:290)
at org.eclipse.jetty.server.HttpConnection.onFillable(HttpConnection.java:248)
at org.eclipse.jetty.io.AbstractConnection$2.run(AbstractConnection.java:540)
at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:606)
at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:535)
at java.lang.Thread.run(Thread.java:745)

YaCy 1.73 - powered by Jetty -



Bei /Tables_p.html kommt die gleiche Meldung, alle anderen Menüpunkte funktionieren.

Hat jemand eine Idee, wo hier das Problem liegen könnte?
In einer früheren, älteren Version hat es dieses Problem nicht gegeben.

Danke und Grüße
hotel24
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon Orbiter » Fr Sep 05, 2014 7:12 am

im Log muss neben dieser Exception noch eine andere stehen, hier sieht man nur den Thread Dump des Servlet wrappers. Die andere Exception steht da entweder genau über oder unter der, die du hier gepostet hast. Mit der hier kann man nicht sehen was los ist, schaust du bitte nochmal ins log?
Orbiter
 
Beiträge: 5769
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » Mo Sep 08, 2014 1:51 pm

Das hier ist der komplette ServerLog-Auszug nach Crawl-Start:

W 2014/09/08 14:45:37 org.eclipse.jetty.servlet.ServletHandler /Crawler_p.html javax.servlet.ServletException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:365) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982) at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1043) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667) at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:745)

I 2014/09/08 01:08:01 SWITCHBOARD cleanup post-processed 0 documents

W 2014/09/08 14:45:37 org.eclipse.jetty.servlet.ServletHandler javax.servlet.ServletException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html at net.yacy.http.servlets.YaCyDefaultServlet.handleTemplate(YaCyDefaultServlet.java:800) at net.yacy.http.servlets.YaCyDefaultServlet.doGet(YaCyDefaultServlet.java:303) at net.yacy.http.servlets.YaCyDefaultServlet.doPost(YaCyDefaultServlet.java:365) at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:684) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:137) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:522) at org.eclipse.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:231) at org.eclipse.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) at org.eclipse.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) at org.eclipse.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) at org.eclipse.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) at org.eclipse.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:255) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at net.yacy.http.CrashProtectionHandler.handle(CrashProtectionHandler.java:33) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) at org.eclipse.jetty.server.Server.handle(Server.java:370) at org.eclipse.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494) at org.eclipse.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982) at org.eclipse.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1043) at org.eclipse.jetty.http.HttpParser.parseNext(HttpParser.java:865) at org.eclipse.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) at org.eclipse.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) at org.eclipse.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667) at org.eclipse.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) at org.eclipse.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:608) at org.eclipse.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:543) at java.lang.Thread.run(Thread.java:745)

I 2014/09/08 14:45:37 Heap clearing heap /usr/home/bqvkgx/yacy/yacy/DATA/WORK/robots.bheap

I 2014/09/08 14:45:37 Crawl Start deleteold=off&obeyHtmlRobotsNoindex=on&range=wide&recrawl=nodoubles&collection=TEST&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=www.orf.at&bookmarkTitle=news.ORF.at&agentName=YaCy%20Internet%20(cautious)&countryMustMatchSwitch=0&crawlingstart=1&crawlingDepth=0


Lässt sich daraus mehr ablesen?
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » Do Sep 11, 2014 4:14 pm

Ich habe festgestellt, dass auf der Seite /CrawlStartExpert.html beim Punkt "Von Datei (Verwende Pfad einer Dateiauf dem lokalen Dateisystem)" der Radiobutton zwar auswählbar ist, aber das nebenliegende Textfeld nicht beschreibbar ist. Also man kann mit dem Cursor nicht hineinklicken. Dazu habe ich testweise eine zweite frische YaCy-Installation vorgenommen (YaCy version 1.72/9000), dort ist das gleiche Problem.

Hängt mein beschriebenes Problem bzgl. "HTTP ERROR 500 - /Crawler_p.html" evtl. mit dieser Situation zusammen? Denn ich übergebe YaCy via Bashscript Files mit URLs. Und wenn diese Funktion beschädigt ist, wäre das ein Grund für den Absturz.

Danke für die Unterstützung!
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » Di Sep 16, 2014 9:51 am

Jetzt bin ich doch noch auf eine vermeintlich brauchbare Fehlermeldung gestoßen:

java.io.FileNotFoundException: /usr/home/bqvkgx/yacy/yacy/DATA/LOCALE/htroot/de/Crawler_p.html (Too many open files)

Ursprünglich habe ich als PPM das Maximum von 30.000 eingestellt gehabt (Bei einer älteren YaCy-Version hat alles einwandfrei funktioniert). Aufgrund der Fehlermeldung habe ich daraufhin den Wert auf 6.000 reduziert. Nun kommt zwar ab und zu weiterhin ein HTTP Error 500, aber YaCy bleibt zumindest nicht mehr komplett stecken, sondern indiziert nach der offensichtlichen Zwangs-Fehler-Pause wieder weiter. D.h. das Crawling funktioniert, aber es werden fälschlicherweise nicht alle Seiten indiziert.

Was hat es auf sich mit der Meldung "Too many open files"?
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » So Sep 21, 2014 9:20 pm

Aufgrund der Fehlermeldung "Too many open files" habe ich am Server ulimit auf 40960 eingestellt. YaCy ist aber trotzdem nach einer Zeit lang wieder abgestürzt, sodass nur eine komplette YaCy-Neuinstallation das Tool wieder ordnungsgemäß zum Laufen gebracht hat. Das ganze Prozedere auf einem anderen Server hat ebenfalls keine Lösung gebracht. Auch die Reduzierung der PPM auf 1000 war nicht von Erfolg gekrönt.

Irgendwie kommt es mir vor, als ob YaCy Probleme mit dem Crawling "von Datei" hat. Wie im ersten Beitrag beschrieben, lade ich mit zeitlichem Abstand Dateien mit jeweils 10.000 URLs unterschiedlicher Domains hoch. Manchmal führt bereits der Start der ersten 10.000 URL-Datei zum Crash, manchmal tritt das Problem erst nach ein paar hunderttausend URLs im Index auf. Wie gesagt, hat in einer früheren Version einst alles funktioniert. Leider weiß ich nicht mehr, welche Version das war.
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » Di Okt 07, 2014 8:38 am

Nach unzähligen Neuinstallationen und anderen Versuchen habe ich festgestellt, dass die Probleme dann nicht mehr auftreten, wenn weitgehend die Default-Einstellungen von YaCy verwendet werden. Dzt. wurde nur die YaCy-Sprache verändert, die RAM-Größe, sowie die Netzwerkkonfiguration auf Robinson Modus/Privater Peer eingestellt. Alle anderen Einstellungen wurden nicht verändert.

Nun läuft das Indizieren wieder. Allerdings ein Problem tritt nach einer gewissen Zeit auf. Wenn ein Crawlingvorgang beendet ist, bleibt der an und für sich beendete Prozess als "Running Crawl" weiterhin bestehen. Nach und nach stauen sich da eine Menge an Crawlprozesse auf, die wie gesagt bereits beendet sind. Der Speicherverbrauch nimmt damit ebenfalls zu und irgendwann hängt sich das System auf.

Als derzeitige Lösung hilft nur ein regelmäßiger Neustart von YaCy, wodurch alle "Running Crawl" Anzeigen verschwinden und YaCy wieder normal indiziert, bis das Problem von Neuem beginnt.
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon flegno » Mi Okt 08, 2014 5:12 am

Hallo,
hotel24 hat geschrieben: Allerdings ein Problem tritt nach einer gewissen Zeit auf. Wenn ein Crawlingvorgang beendet ist, bleibt der an und für sich beendete Prozess als "Running Crawl" weiterhin bestehen. Nach und nach stauen sich da eine Menge an Crawlprozesse auf, die wie gesagt bereits beendet sind. Der Speicherverbrauch nimmt damit ebenfalls zu und irgendwann hängt sich das System auf.

Ich nehme an, dass dieses Verhalten es verdient hat, im YaCy-Bugtracker erfasst zu werden. Ich selbst komme z.Zt. nicht dazu, die Szenarien mit Crawlingvorgängen nachzustellen, würde aber gern ein Bugreport im Mantis erstellen, wenn jemand mir ein Minimum an Infos dafür liefert. Bspw. das, was hotel24 hier berichtet, aber im Idealfall mit
  1. Logfiles
  2. Angaben zur Laufzeitumgebung
    • Betriebssystem
    • Betriebssystem-Version
    • Java-Version
    • YaCy-Version.
Wofür steht die Abkürzung "Dzt." ~ derzeit?

Gruss, flegno
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: HTTP ERROR 500 - /Crawler_p.html

Beitragvon hotel24 » Mi Okt 15, 2014 10:23 am

Ich denke, ich habe das Problem nun endlich lösen können.

Und zwar ist auf /IndexFederated_p.html die Verwendung von "use citation reference index (lightweight and fast)" zu deaktivieren. Damit funktioniert das Crawling nun auch wieder mittels File-Upload.
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron