Crawls werden ohne Grund gekillt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Sa Apr 04, 2009 9:48 pm

Wäre vielleicht doch besser ein Thema für diesen Teil des Forums gewesen anstatt für die Wunschliste http://forum.yacy-websuche.de/viewtopic.php?f=9&t=1950&p=13595#p13595
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Sa Apr 04, 2009 11:20 pm

mir ist auch schon aufgefallen das manche Crawls einfach so verschwinden. Ich weiss noch nicht woran das liegt, guck mir das aber recht bald an.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » So Apr 05, 2009 10:01 am

Jetzt habe ich mal Java auf

Code: Alles auswählen
Stefans-MacBook-Pro:~ stefan$ java -version
java version "1.5.0_16"
Java(TM) 2 Runtime Environment, Standard Edition (build 1.5.0_16-b06-284)
Java HotSpot(TM) Client VM (build 1.5.0_16-133, mixed mode, sharing)


geupdated. Bis jetzt läuft es ohne dass ein Crawl vorzeitig beendet wird. Aber was bedeutet

Code: Alles auswählen
E 2009/04/05 10:57:19 PARSER Unable to parse 'http://www.tzen.fr/'. Unexpected exception. null
java.io.IOException
   at de.anomic.kelondro.util.FileUtils.copy(FileUtils.java:144)
   at de.anomic.kelondro.util.FileUtils.copy(FileUtils.java:123)
   at de.anomic.plasma.plasmaParser.parseHtml(plasmaParser.java:709)
   at de.anomic.plasma.plasmaParser.parseSource(plasmaParser.java:655)
   at de.anomic.plasma.plasmaParser.parseSource(plasmaParser.java:556)
   at de.anomic.plasma.plasmaSwitchboard.parseDocument(plasmaSwitchboard.java:1531)
   at de.anomic.plasma.plasmaSwitchboard.parseDocument(plasmaSwitchboard.java:1500)
   at sun.reflect.GeneratedMethodAccessor15.invoke(Unknown Source)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
   at java.lang.reflect.Method.invoke(Method.java:585)
   at de.anomic.server.serverInstantBlockingThread.job(serverInstantBlockingThread.java:87)
   at de.anomic.server.serverAbstractBlockingThread.run(serverAbstractBlockingThread.java:64)
   at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:417)
   at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:269)
   at java.util.concurrent.FutureTask.run(FutureTask.java:123)
   at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:650)
   at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:675)
   at java.lang.Thread.run(Thread.java:613)


das?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » So Apr 05, 2009 1:45 pm

Leider nach ein paar Stunden schon wieder terminated :-( auch mit der neusten Dev-Version von YaCy :-(
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » So Apr 05, 2009 1:46 pm

Was mir aufgefallen ist: Das passiert nur unter Mac OS!!! Unter Windows und Ubuntu Linux tritt das Problem nicht auf.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » So Apr 05, 2009 9:21 pm

Wieviel Crawls kann man eigentlich gleichzeitig starten? Bzw. welche Zahl von parallelen Crawls sollte nicht überschritten werden? Crawl-Tiefe stelle ich niemals höher als 3.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » So Apr 05, 2009 10:24 pm

Ich sehe keine prinzipielle Begrenzung für die Anzahl der Crawls ausser ein Problem bei der Anzeige der Crawl Profil Liste. Die Crawl Profile werden in einem BLOB gespeichert dass die gleiche Datenstruktur hat wie der neue Volltext-Index (BLOBHeap). Da kann man problemlos millionen Einträge rein tun. Anders Skalierungsprobleme sehe ich nicht. D.h. du kannst mehr oder weniger unbegrenzt viele Crawls gleichzeitig starten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mo Apr 06, 2009 11:59 am

Wow vielen Dank für die professionelle Antwort!!!

Wenn ich bei der neusten Dev-Build (da wo die Crawls auch nach einer Zeit terminated werden) mir das Log angucken will, bleibt die Seite einfach leer :-(
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Mo Apr 06, 2009 5:03 pm

bin noch nicht dazu gekommen, habs aber aufm Radar.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mo Apr 06, 2009 7:04 pm

Wollte gerade die Performance Settings umstellen (neuste Dev-Build), dann kam dashier:

Code: Alles auswählen
xception occured: java.lang.reflect.InvocationTargetException

TRACE:
      java.lang.reflect.InvocationTargetException
   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
   at java.lang.reflect.Method.invoke(Method.java:585)
   at de.anomic.http.httpdFileHandler.invokeServlet(httpdFileHandler.java:1171)
   at de.anomic.http.httpdFileHandler.doResponse(httpdFileHandler.java:751)
   at de.anomic.http.httpdFileHandler.doGet(httpdFileHandler.java:240)
   at de.anomic.http.httpd.GET(httpd.java:489)
   at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
   at java.lang.reflect.Method.invoke(Method.java:585)
   at de.anomic.server.serverCore$Session.listen(serverCore.java:739)
   at de.anomic.server.serverCore$Session.run(serverCore.java:620)
Caused by: java.util.ConcurrentModificationException
   at java.util.TreeMap$PrivateEntryIterator.nextEntry(TreeMap.java:1031)
   at java.util.TreeMap$ValueIterator.next(TreeMap.java:1064)
   at de.anomic.kelondro.text.ReferenceContainerCache$heapCacheIterator.next(ReferenceContainerCache.java:336)
   at de.anomic.kelondro.text.ReferenceContainerCache$heapCacheIterator.next(ReferenceContainerCache.java:309)
   at de.anomic.kelondro.text.IndexBuffer.getBufferSizeBytes(IndexBuffer.java:341)
   at de.anomic.kelondro.text.BufferedIndexCollection.getBufferSizeBytes(BufferedIndexCollection.java:261)
   at PerformanceQueues_p.respond(PerformanceQueues_p.java:289)
   at Performance_p.respond(Performance_p.java:34)
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mo Apr 06, 2009 9:07 pm

hmm, ich habe gerade mal rein Interessehalber mit einer alten 0.60er Version getestet. Da passiert das gleiche :-( obwohl ich damals mit dieser Version nie solche Probleme hatte.

2 Theorien: Wäre es theoretisch möglich, dass jemand eine Man-in-the-Middle-Attacke gegen das YaCy-Netz fährt? Oder hat Apple ein Leopard-Update verteilt was sich nicht mit YaCy verträgt?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Di Apr 07, 2009 7:27 am

Hi

Bei mir auch, siehe http://forum.yacy-websuche.de/viewtopic.php?f=5&t=1924.

Sowohl bei Ubuntu als auch bei XP.

Zusätzlich ist mir aufgefallen das bei den Crawlprofilen der Must-Match Filter plötzlich verschwinden kann und dann alles gecrawlt wird.

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Di Apr 07, 2009 11:36 am

ich habe den Effekt zwar auch gesehen, aber beim debuggen nicht nachstellen können. Kommt mir vor als wäre das nur sporadisch, denn nach mehreren Restarts ist der Crawl nicht verschwunden, obwohl es heute schon mal passiert ist .. leider nie wenn ich den Code im Debugger beobachte.

Vielleicht gibt es ein Schema, nach dem die Crawls verloren gehen. Ist euch da was aufgefallen? Könnt ihr das nachstellen das Crawls nicht _immer_ verloren gehen, sondern nur manchmal?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Di Apr 07, 2009 5:23 pm

Ich kann nicht verstehen dass selbst mit der alten 0.60 Version das Gleiche passiert. Als ich die damals laufen hatte, ist es nie passiert. Ich setze mal ein FreeBSD auf im VMware und teste mal ob es da besser läuft. Meine Vermutung ist immer noch, das es kein Bug im YaCy-Code ist, sondern dass "von außen" irgend was Einfluss nimmt. Evtl. hat Apple ein Update eingespielt was sich nicht verträgt.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Di Apr 07, 2009 5:27 pm

Ich will aber als Produktivsystem das Mac OS X nicht mehr missen. Unter Linux ist mein Prozessor im Macbook über 20 °C heisser, trotz selbstgebautem Kernel mit CPU-Taktfrequenz ganz niedrig und alle möglichen Power-Management-Features aktiviert. Trotzdem wird die Oberfläche vom MacBook total warm. Und der Lüfter dauerhaft auf höhere Umdrehungen laufen zu lassen will ich nicht (zu Laut). Da lob ich mir doch Mac OS. Nicht nur das die CPU-Temperatur viel niedriger ist, sondern auch der Akku läuft über 30 Minuten länger als z. B. mit Vista. Die Micro-/Mach-Kernelarchitektur von Mac OS ist genial!!!
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Di Apr 07, 2009 8:11 pm

Hab jetzt erst mal P2P komplett abgeschaltet (auf dem Mac, Peername aquae-mattiacorum). Unter Windows (Peername sokrates) läuft es weiter.

Wenn der Crawl beim Mac bis morgen Abend durchläuft und kein Terminated kommt, vermute ich dass es was mit dem P2P zu tun hat.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Mi Apr 08, 2009 8:54 am

Hi Orbiter

Orbiter hat geschrieben:Vielleicht gibt es ein Schema, nach dem die Crawls verloren gehen. Ist euch da was aufgefallen? Könnt ihr das nachstellen das Crawls nicht _immer_ verloren gehen, sondern nur manchmal?


Mit der 0.7 Version von yacy.net für Mac/Linux gehen bei mir alle Crawls verloren (alles wird gecrawlt und dann terminiert). Bei der gleichen Version für Windows bin ich gerade am ausprobieren wie es sich mit dem Crawlen verhält.

Bisher:
Der Must-Match Filter kommt bei einem neuen Crawl oft (aber eben nicht reproduzierbar) nicht im Crawlprofil an und muss manuell eingegeben werden. Im Crawlprofil ( http://localhost:8080/CrawlProfileEditor_p.html ) werden bei neuen Crawls zudem oft (aber eben auch nicht reproduzierbar) die ReCrawloptionen (/autoReCrawl/daily|weekly|monthly) nicht übernommen, bei den Lesezeichen werden sie aber korrekt abgelegt.

Wenn ich mehr weiss schreibe ich wieder.

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Mi Apr 08, 2009 9:06 am

Icebreeze hat geschrieben:Mit der 0.7 Version von yacy.net für Mac/Linux gehen bei mir alle Crawls verloren (alles wird gecrawlt und dann terminiert).

Das ist nicht der Fehlerfall. Wenn ein Crawl beendet ist, weil alles gecrawlt wurde, ist er ja nicht verloren. Der Fehler den ich beobachtet habe ist, dass nach einem Neustart der laufende Crawl weg war. Um den Fehler nachzustellen muss man:
- einen Crawl Starten
- Kontrollieren das er läuft
- Neustarten
- gucken ob der Crawl immer noch läuft.
Genau dieses Szenario habe ich debuggt, und keinen Fehler gesehen, obwohl ich hin und wieder nach einem Neustart tatsächlich keinen Crawl mehr hatte, der vorher lief.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mi Apr 08, 2009 11:25 am

Bei mir ist es genau umgekehrt. Ich starte einen Crawl, und er wird nie finished sondern nach einer Zeitlang steht im Crawl Profile Editor einfach "terminated". Aber seitdem ich P2P deaktiviert habe rennt der Peer wie ne eins und der Crawl läuft jetzt schon seit über 12 Stunden mit der neusten Dev-Version. Ich würde aber sehr gerne wieder am P2P teilnehmen.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Mi Apr 08, 2009 12:04 pm

ich kann da aber keinen Zusammenhang sehen. Schalte mal probeweise wieder p2p an um zu verifizieren dass es dann gleich wieder knallt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Do Apr 09, 2009 5:44 pm

Ja. Kaum war P2P an, schon hat sich der Crawl verabschiedet. Bei dem Windows-Peer (sokrates) wird er auch immer langsamer und läuft irgendwann gar nicht mehr. Nach einem Neustart ist's aber kein Problem mehr. Hier wird er auch nicht terminated.

Nur auf dem Mac kommt das mit dem Terminated. Soll ich dir mal einen VNC-Zugang bei mir machen?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Fr Apr 10, 2009 9:28 am

Ich teste jetzt auch nochmal unter FreeBSD in einer VM.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Sa Apr 11, 2009 9:46 am

Unter FreeBSD schmiert der komplette YaCy-Prozess nach 30 Minuten ab. Unter Solaris hab ich nicht mehr getestet weil das System ein Performance-Fresser ist. Jetzt habe ich eine VM mit WinXP aufgesetzt und da geht es einwandfrei ohne das die Crawls vorzeitig terminated werden. Falls mal was nicht richtig läuft, starte ich den Peer neu und alles läuft wieder wie normal. Nur unter OS X Leopard 10.5.6 habe ich diese Probleme. Meine Vermutung ist ja immer noch, dass es am Leopard selber liegt, dass Apple ein Update eingespielt hat was Probleme macht.

@Orbiter: Hast du auch Leopard laufen oder noch Tiger? Welche YaCy-Version läuft bei dir auf dem Mac?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » So Apr 12, 2009 10:01 am

Was mir aufgefallen ist, dass das Empfangen von Indizes von anderen Peers den aktien Crawl irgendwie aus dem Gleichgewicht bringt. Kann man die Balance irgendwie gleichmäßiger verteilen / dem Crawl mehr Priorität geben und dem Index receive etwas weniger?

Frohe Ostern und erholsame Feiertage!!!
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Di Apr 14, 2009 11:22 am

Mit der 0.610 Build 5246 habe ich gar keine Probleme. Es läuft super. Nur eine Frage: Kann man die brute-force prevention für eine bestimmte IP abschalten? Kann deshalb vom lokalen LAN von einem virtuellen PC (VMware) den Peer nicht konfigurieren :-(
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mi Apr 15, 2009 5:52 pm

Code: Alles auswählen
stefans-computer:~ stefan$ java -version
java version "1.5.0_06"
Java(TM) 2 Runtime Environment, Standard Edition (build 1.5.0_06-112)
Java HotSpot(TM) Client VM (build 1.5.0_06-64, mixed mode)


Mit dieser Java-Version ist alles in Butter. Keine Crawls werden mehr ohne Grund terminated. Ich habe OS X Tiger wieder installiert, da sich mein Leopard ohne einen erkennbaren Grund nicht mehr aus dem Suspend-Modus zurückholen ließ. Auch ein Totalreset vom Macbook hat nichts gebracht. Bei der Gelegenheit hab ich halt mal Tiger anstatt Leopard installiert, weil ich unbedingt wissen wollte ob YaCy sich dort genauso verhält (Crawl terminated).
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Do Apr 16, 2009 9:46 pm

Und der Peer rennt und rennt und rennt :-) Es werden keine Crawls mehr terminated.

Ich habe mir gerade mal bei Alexa die Top 10.000 der meistbesuchten Websites als CSV runtergeladen, werde jetzt "ein paar" Crawls starten :D
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Sa Apr 18, 2009 6:58 pm

Code: Alles auswählen
E 2009/04/18 18:53:26 BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.storeDocumentIndex.17': null; target exception: null
java.lang.ClassCastException


Was bedeutet das? Wird für die v0.75 das JRE 1.6 benötigt?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Low012 » Sa Apr 18, 2009 7:16 pm

Davon dass irgendwann demnächst JRE 1.6 Voraussetzung für YaCy sein soll, weiß ich nichts und Orbiter würde das nicht ohne Ankündigung machen. Scheint also ein Bug zu sein, aber mehr kann ich dazu leider nicht sagen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon bluumi » Sa Apr 18, 2009 7:22 pm

LA_FORGE hat geschrieben:Was bedeutet das? Wird für die v0.75 das JRE 1.6 benötigt?

Code: Alles auswählen
5829     /     f1ori     1d 02h 27m     * rewrite code without using java 1.6 features

Könnte es ssein, dass Dein Problem damit bereits gefixt ist?
Ich muss jedoch sagen, dass ich auch eine Kiste mit 64bit linux und Java 1.5xx habe und Dein Problem darauf nie auftratt, auch mit den neuen SVN's
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Sa Apr 18, 2009 10:36 pm

Ja ist alles wieder im Lot. Vielen Dank!!!
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Di Apr 21, 2009 8:50 pm

Code: Alles auswählen
E 2009/04/21 20:58:50 BUSYTHREAD Runtime Error in serverInstantThread.job, thread 'de.anomic.plasma.plasmaSwitchboard.rwiCacheFlush': null; target exception: null
java.lang.StackOverflowError
   at de.anomic.kelondro.kelondroBase64Order.compare0(kelondroBase64Order.java:297)
   at de.anomic.kelondro.kelondroBase64Order.compare(kelondroBase64Order.java:293)
   at de.anomic.kelondro.kelondroRowCollection.compare(kelondroRowCollection.java:862)
   at de.anomic.kelondro.kelondroRowCollection.min(kelondroRowCollection.java:730)
   at de.anomic.kelondro.kelondroRowCollection.picMiddle(kelondroRowCollection.java:714)
   at de.anomic.kelondro.kelondroRowCollection.pivot(kelondroRowCollection.java:690)
   at de.anomic.kelondro.kelondroRowCollection.partition(kelondroRowCollection.java:624)
   at de.anomic.kelondro.kelondroRowCollection.qsort(kelondroRowCollection.java:588)


Was ist da los? YaCy-Version 0.7 Build 5494
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Di Apr 21, 2009 9:11 pm

ein StackOverflowError deutet meistens auf eine Endlosschleife hin, was ganz übel ist. Das kelondroBase64Order habe ich aber sehr stark, in den letzten 2 Tagen ganz besonders stark überarbeitet. Da ist nichts mehr so wie in Version 0.7. Einfach auf aktuelles Dev-Release gehen bitte.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mi Apr 22, 2009 6:52 pm

So. Update erledigt. Geht alles einwandfrei. Leider erkennt mein Peer einen legitimen Zugriff von einem meiner Linux-VMs mit Opera-Browser als Bruteforce-Attacke. Kann man gezielt eine IP von der Bruteforce-Attack-Prüfung ausschließen?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Do Apr 23, 2009 7:10 pm

Wie kann man nochmal den Threaddump abrufen? Kann man da sehen ob der Prozess läuft der die Indexcollections in das neue Format umwandelt?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Low012 » Do Apr 23, 2009 7:12 pm

Da gibt es mehrere Möglichkeiten. Der Einfacheit halber verlinke ich hier mal die enstrechende Seite im Wiki: http://www.yacy-websearch.net/wiki/inde ... hread_Dump
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Fr Apr 24, 2009 10:33 pm

Vielen Dank. Bei der 0.76 Build 5865 kommt bei mir eine leere Seite wenn ich über das Webinterface "Server Log" abrufen will :-( gibt's dafür schon eine Lösung? Und eine Möglichkeit um einzelne IPs bzw. ein Subnetz vom Bruteforce-Attack-Check auszuschließen suche ich noch.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Lotus » So Apr 26, 2009 12:27 pm

LA_FORGE hat geschrieben:Und eine Möglichkeit um einzelne IPs bzw. ein Subnetz vom Bruteforce-Attack-Check auszuschließen suche ich noch.

/ConfigProperties_p.html
network.unit.access.whitelist
Achtung: regex!
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » So Apr 26, 2009 4:12 pm

Hallo zusammen

Ich hab alles platt gemacht, die Version 0.760/05875 für Windows (mit Java 6 Update 13) installiert und... Bei mir läuft es immer noch gleich gut oder schlecht.

Was hab ich gemacht:
1. Yacy installiert
2. Port 8081 + Robinsonmodus eingestellt, Speicher auf 640 MB raufgeschraubt
3. zuerst 5 Crawls von grossen Seiten erstellt (/autoReCrawl/monthly/, auf Domain begrenzt, nach 3 Monaten gespeicherte Links wieder crawlen)
4. im Crawlprofil festgestellt das der Autorecrawl fehlte (/autoReCrawl/monthly/www.example.tld) aber "Muss zutreffen" da war
5. nach ein paar Minuten wird dann zwar beim momentan aktuellen Crawl /autoReCrawl/monthly/ korrekt angezeigt, aber dafür ist "Muss zutreffen" weg
6. ich korrigiere "Muss zutreffen", füge weitere Crawls hinzu und lass Yacy laufen
7. nach ein paar Stunden sind alle Crawls terminated (und das obwohl von der Grösse der Seiten her nicht alle gecrawlt werden konnten)

*seufz*

Vielleicht hilft euch das.

rgds
IceBreeze

Edit: Der Threaddump, gemacht habe ich in der Zwischenzeit nichts
Code: Alles auswählen
************* Start Thread Dump Sun Apr 26 17:14:35 CEST 2009 *******************

YaCy Version: 0.760/05875
Total Memory = 665976832
Used  Memory = 196397104
Free  Memory = 469579728


THREADS WITH STATES: BLOCKED


THREADS WITH STATES: RUNNABLE

Thread= AWT-Windows daemon id=11 RUNNABLE
at java.lang.Thread.run(Unknown Source)


Thread= Session_202.168.100.149:39647#0 id=5306 RUNNABLE
Thread= Session_131.246.103.129:36676#1 id=5309 RUNNABLE
Thread= Session_62.226.120.107:2001#0 id=5326 RUNNABLE
Thread= Session_194.204.62.215:65120#0 id=5324 RUNNABLE
Thread= Session_77.243.46.253:33899#0 id=5321 RUNNABLE
Thread= Session_78.115.219.143:53238#0 id=5319 RUNNABLE
at java.io.PushbackInputStream.read(Unknown Source)
at de.anomic.server.serverCore.receive(serverCore.java:840)
at de.anomic.server.serverCore$Session.readLine(serverCore.java:566)
at de.anomic.server.serverCore$Session.listen(serverCore.java:671)
at de.anomic.server.serverCore$Session.run(serverCore.java:620)


Thread= httpd:8081 id=90 RUNNABLE
at java.net.ServerSocket.accept(Unknown Source)
at de.anomic.server.serverCore.job(serverCore.java:331)
at de.anomic.server.serverAbstractBusyThread.run(serverAbstractBusyThread.java:143)


Thread= Session_127.0.0.1:3369#0 id=5327 RUNNABLE
at java.lang.Thread.getAllStackTraces(Unknown Source)
at Threaddump_p.respond(Threaddump_p.java:90)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at de.anomic.http.httpdFileHandler.invokeServlet(httpdFileHandler.java:1171)
at de.anomic.http.httpdFileHandler.doResponse(httpdFileHandler.java:751)
at de.anomic.http.httpdFileHandler.doGet(httpdFileHandler.java:240)
at de.anomic.http.httpd.GET(httpd.java:489)
at sun.reflect.GeneratedMethodAccessor14.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at de.anomic.server.serverCore$Session.listen(serverCore.java:739)
at de.anomic.server.serverCore$Session.run(serverCore.java:620)



THREADS WITH STATES: TIMED_WAITING

Thread= de.anomic.plasma.plasmaSwitchboard.deQueueProcess id=83 TIMED_WAITING
Thread= de.anomic.data.bookmarksDB.autoReCrawl id=49 TIMED_WAITING
Thread= de.anomic.crawler.CrawlQueues.remoteTriggeredCrawlJob id=84 TIMED_WAITING
Thread= de.anomic.crawler.CrawlQueues.remoteCrawlLoaderJob id=85 TIMED_WAITING
Thread= de.anomic.yacy.yacyCore.publishSeedList id=87 TIMED_WAITING
Thread= de.anomic.plasma.plasmaSwitchboard.cleanupJob id=82 TIMED_WAITING
Thread= de.anomic.crawler.CrawlQueues.coreCrawlJob id=86 TIMED_WAITING
Thread= de.anomic.yacy.yacyCore.peerPing id=88 TIMED_WAITING
Thread= de.anomic.plasma.plasmaSwitchboard.dhtTransferJob id=89 TIMED_WAITING
at java.lang.Thread.sleep(Native Method)
at de.anomic.server.serverAbstractBusyThread.ratz(serverAbstractBusyThread.java:199)
at de.anomic.server.serverAbstractBusyThread.run(serverAbstractBusyThread.java:164)


Thread= Thread-1 id=9 TIMED_WAITING
at java.lang.Thread.sleep(Native Method)
at de.anomic.server.serverProfiling.run(serverProfiling.java:63)



THREADS WITH STATES: WAITING

Thread= MultiThreadedHttpConnectionManager cleanup daemon id=2277 WAITING
at java.lang.ref.ReferenceQueue.remove(Unknown Source)
at org.apache.commons.httpclient.MultiThreadedHttpConnectionManager$ReferenceQueueThread.run(MultiThreadedHttpConnectionManager.java:1122)


Thread= Finalizer daemon id=3 WAITING
at java.lang.ref.Finalizer$FinalizerThread.run(Unknown Source)


Thread= AWT-EventQueue-0 id=15 WAITING
at java.awt.EventDispatchThread.run(Unknown Source)


Thread= parseDocument_pool-3-thread-23 id=77 WAITING
Thread= parseDocument_pool-3-thread-24 id=79 WAITING
Thread= job_pool-3-thread-15 id=61 WAITING
Thread= storeDocumentIndex_pool-3-thread-18 id=67 WAITING
Thread= job_pool-3-thread-16 id=63 WAITING
Thread= job_pool-3-thread-14 id=59 WAITING
Thread= storeDocumentIndex_pool-3-thread-6 id=37 WAITING
Thread= storeDocumentIndex_pool-3-thread-5 id=35 WAITING
Thread= webStructureAnalysis_pool-3-thread-20 id=71 WAITING
Thread= storeDocumentIndex_pool-3-thread-10 id=45 WAITING
Thread= storeDocumentIndex_pool-3-thread-8 id=41 WAITING
Thread= job_pool-3-thread-17 id=65 WAITING
Thread= job_pool-3-thread-12 id=55 WAITING
Thread= storeDocumentIndex_pool-3-thread-7 id=39 WAITING
Thread= storeDocumentIndex_pool-3-thread-3 id=31 WAITING
Thread= webStructureAnalysis_pool-3-thread-19 id=69 WAITING
Thread= storeDocumentIndex_pool-3-thread-1 id=27 WAITING
Thread= condenseDocument_pool-3-thread-21 id=73 WAITING
Thread= storeDocumentIndex_pool-3-thread-4 id=33 WAITING
Thread= condenseDocument_pool-3-thread-22 id=75 WAITING
Thread= storeDocumentIndex_pool-3-thread-9 id=43 WAITING
Thread= parseDocument_pool-3-thread-25 id=81 WAITING
Thread= storeDocumentIndex_pool-3-thread-2 id=29 WAITING
Thread= job_pool-3-thread-13 id=57 WAITING
Thread= job_pool-3-thread-11 id=53 WAITING
at java.util.concurrent.LinkedBlockingQueue.take(Unknown Source)
at de.anomic.server.serverProcessor.take(serverProcessor.java:97)
at de.anomic.server.serverAbstractBlockingThread.run(serverAbstractBlockingThread.java:55)
at java.util.concurrent.Executors$RunnableAdapter.call(Unknown Source)
at java.util.concurrent.FutureTask$Sync.innerRun(Unknown Source)
at java.util.concurrent.FutureTask.run(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)


Thread= main id=1 WAITING
at java.lang.Object.wait(Object.java:485)
at de.anomic.server.serverSemaphore.P(serverSemaphore.java:63)
at de.anomic.plasma.plasmaSwitchboard.waitForShutdown(plasmaSwitchboard.java:2198)
at yacy.startup(yacy.java:421)
at yacy.main(yacy.java:1038)


Thread= urls_pool-3-thread-27 id=120 WAITING
Thread= Java2D Disposer daemon id=10 WAITING
Thread= urls_pool-3-thread-26 id=118 WAITING
Thread= AWT-Shutdown id=12 WAITING
at java.lang.Thread.run(Unknown Source)


Thread= Reference Handler daemon id=2 WAITING
at java.lang.ref.Reference$ReferenceHandler.run(Unknown Source)


Thread= Thread-4 id=17 WAITING
at java.util.concurrent.ArrayBlockingQueue.take(Unknown Source)
at de.anomic.kelondro.text.IODispatcher.run(IODispatcher.java:128)



THREADS WITH STATES: NEW


THREADS WITH STATES: TERMINATED


************* End Thread Dump Sun Apr 26 17:14:35 CEST 2009 *******************
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » So Apr 26, 2009 7:09 pm

@Lotus: Vielen Dank!

@Icebreeze: Teste doch mal bitte mit Java 6 Update 5, das gibt es hier:

http://bit.ly/gLo3R


Das hat bei mir das Problem mit den vorzeitig terminated crawls gelöst.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Mo Apr 27, 2009 4:13 am

LA_FORGE hat geschrieben:@Icebreeze: Teste doch mal bitte mit Java 6 Update 5, das gibt es hier:
http://bit.ly/gLo3R
Das hat bei mir das Problem mit den vorzeitig terminated crawls gelöst.


Vielen dank, hatte noch gestern abend diese Javaversion installiert und ein paar Crawls gestartet. Die vorzeitig terminated crawls gibt es bei mir jetzt auch nicht mehr :D , aber
4. im Crawlprofil festgestellt das der Autorecrawl fehlte (/autoReCrawl/monthly/www.example.tld) aber "Muss zutreffen" da war
5. nach ein paar Minuten wird dann zwar beim momentan aktuellen Crawl /autoReCrawl/monthly/ korrekt angezeigt, aber dafür ist "Muss zutreffen" weg


ist bei mir immer noch aktuell und zwar bei jeden Crawl.

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Lotus » Mo Apr 27, 2009 2:36 pm

Icebreeze hat geschrieben:
LA_FORGE hat geschrieben:Java 6 Update 5
[...] gelöst.

Die vorzeitig terminated crawls gibt es bei mir jetzt auch nicht mehr :D

Das ist ja interessant!
Tritt das tatächlich so oft auf?
Ich werde einmal mein JDK updaten und auf Java 1.6u13 kompilieren damit ihr diese Version dann testen könnt. Grundsätzlich wird 1.5-kompatibel kompiliert. Mal sehen ob ich es heute Abend noch schaffe.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Mo Apr 27, 2009 6:34 pm

Ja, jetzt habe ich auch wieder sehr oft crawls die vorzeitig terminated wurden :-( (Selbst mit der JRE 1.6 Update 5 wo es vorher einwandfrei lief).

Unter Linux (Ubuntu 8.04 mit meinem Spezialkernel) und JRE 1.6 Update 13 keine Probs. Bin sehr zufrieden. Schon über 6,9 GB an BLOBs die vom normalen Index konvertiert wurden.
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Fr Mai 01, 2009 8:28 am

Mit der Dev 0.77/5904 besteht das Problem nicht mehr! Habt ihr was geändert was den Crawler betrifft?

Herzlichen Dank!!!
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Fr Mai 01, 2009 1:11 pm

Hi

Heute morgen ist es bei mir wieder so weit... Alle Crawls wurden terminiert. Yacy lief auf XP und in der Version 0.760/05875.

*Seufzseufz* Werde mal ein aktuelles Dev ziehen.

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Fr Mai 01, 2009 2:59 pm

Hi

Ha, könnte ein Stromausfall der Grund sein das Yacy alle Crawls terminiert?

Weil:
Wir hatten diese Nacht einen Stromausfall von ein paar Minuten. Aquarien+Schaltuhren sei dank konnte ich den Stromausfall feststellen. OK, eigentlich brachte mein zerzauster und gestresster Nachbar mich darauf, der hatte nämlich verschlafen :D

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon LA_FORGE » Sa Mai 02, 2009 10:23 pm

Unter Anderem kann ein Stromausfall ein Grund für die Terminated Crawls sein, aber bei mir wurden sie ja auch ohne Stromausfall terminated :-(

Aber seit der Dev-Version 0.77/5904 habe ich diese Probleme nicht mehr! Ein ganz großes Lob an die Programmierer!!! Respekt!!! Was habt ihr geändert?
LA_FORGE
 
Beiträge: 555
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Mo Mai 04, 2009 1:11 pm

Hi

LA_FORGE hat geschrieben:Aber seit der Dev-Version 0.77/5904 habe ich diese Probleme nicht mehr! Ein ganz großes Lob an die Programmierer!!! Respekt!!! Was habt ihr geändert?


Hm schön für Dich. Habe jetzt XP + 0.770/05919, die Crawls werden nach ein paar Stunden alle beendet.
Muss mal schauen das ich das auf Ubuntu wieder zum Laufen bringe.

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Re: Crawls werden ohne Grund gekillt

Beitragvon Orbiter » Mo Mai 04, 2009 1:45 pm

bitte mal gucken ob jemand den Sting "Emergency reset" im Log stehen hat im Zusammenhang mit den verschwundenen Crawls.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawls werden ohne Grund gekillt

Beitragvon Icebreeze » Mo Mai 04, 2009 5:11 pm

Hi Orbiter

Orbiter hat geschrieben:bitte mal gucken ob jemand den Sting "Emergency reset" im Log stehen hat im Zusammenhang mit den verschwundenen Crawls.


Hab die Logs durchgeschaut, aber ein solcher String kommt nicht vor.

Würde es helfen wenn ich die Logs auf meine Seite setze und Du/ihr sie euch anschaut?

rgds
IceBreeze
Icebreeze
 
Beiträge: 30
Registriert: Do Okt 16, 2008 6:37 pm

Nächste

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste