Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon Lachi » Di Nov 18, 2008 12:29 am

Hallo.

Ich habe gerade von der stabilen Version 0.61 (r5246) auf die Entwicklerversion 0.614 (r5349) ein Update gemacht.
Das hat auch alles geklappt, bis auf die Tatsache, dass laut Anzeig im lokalen Crawler Puffer voerher 60.000 Seiten waren, hinterher 0.
Habe ich vergessen beim Update (vom Webinterface aus) die richtigen Handlungen zu unternehmen, ist das unvermeidlich oder ein nicht beabsichtigtes Verhalten?

mfg Lachi
Lachi
 

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon Orbiter » Di Nov 18, 2008 12:32 am

ich fürchte das kann passieren. Ich weiss schon gar nicht mehr was ich alles am crawler geändert habe, aber es ist gut möglich das da die crawl queue flöten geht. Macht aber doch nichts, starte einfach den gleichen Crawl noch mal, was du schon in der Datenbank im Index hast wird nicht neu geschrieben, so lange du keine Recrawl-Option an machst.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon Lachi » Di Nov 18, 2008 12:37 am

Hi Orbiter,

Da ansonsten auch alles noch zu funktionieren scheint, habe ich mir auch keine großen Sorgen gemacht.
Ich wollte es nur melden, damit es nicht irgendwann unerwartet als Problem auftaucht, wenn es einfach eine nicht unerwartete Folge der Änderungen ist, hat es sich ja auch schon erledigt.

Danke für die schnelle Antwort.

mfg Lachi
Lachi
 

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon bluumi » Mi Nov 19, 2008 2:25 pm

Orbiter hat geschrieben:starte einfach den gleichen Crawl noch mal, was du schon in der Datenbank im Index hast wird nicht neu geschrieben

Obiges Problem hatte ich beim Upgrade meines Clients auch, jedoch hat er mir dann auch diese Seiten nicht mehr gecrawlt und auch gar nichts neues mehr. Einzig löschen von YACY Verzeichniss und neu installalation hat geholfen. Drum lasse ich den 400k Links Crawl nun ganz durchlaufen und versuche den Upgrade erst wieder wenn alles fertig gecrawlt ist.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon Lotus » Mi Nov 19, 2008 6:54 pm

Falls es weitere Personen gibt bei denen das Problem wie bei bluumi auftritt: eine Definition der Recrawl-Zeit sollte es nicht nötig machen den Index zu löschen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon bluumi » Di Nov 25, 2008 2:21 pm

So, nachdem ich ~400'000 Seiten Indexiert habe, habe ich nun nochmals den Update von der Stable auf die letzte versucht und der Fehler tritt wieder auf.
r5246 -> 0.615/05365 ... Ich könnte mir nur vorstellen, dass es "etwas" nun verwendet, was meine Box nicht unterstützt.

Egal was ich als Crawlstart definiere er nimmt es nicht. Der Index ist aber unverletzt, da ich sehe wie RWI läuft.
Code: Alles auswählen
I 2008/11/25 14:10:22 PLASMA Unable to parse the resource 'http://www.tagesanzeiger.ch/kultur/buecher/Von-der-Schwierigkeit-613-religioese-Regeln-zu-le
ben/story/22100492'. No resource content available (1) source == null


Da er aber jegliche RemoteCrawl "vernichtet", bzw ebenso nicht ausführt, habe ich den Yacy nun beendet, nicht dass der "mal kurz" alle RemoteCrawls "erledigt".

Ich hab nun das LogFile Hoch und runter gescrollt, aber es fällt mir keine Fehlermeldung auf welche ein Fehlen von "etwas" anzeigt.

Ich hab mal das letzte LogFile angehängt, da habe ich den Yacy kurz hochgefahren und wieder runter, da es nach einem Reboot noch immer nicht ging CrawlJobs aufzugeben. Ich vermute ich überseh irgendetwas wichtiges.

Hier noch ein Beispiel Ausschnitt:
Code: Alles auswählen
D 2008/11/25 15:01:37 CRAWLER LOCALCRAWL[1, 0, 0, 0]: URL=http://www.ag.ch/, initiator=-ZAAFt45tfoC, crawlOrder=false, depth=0, crawlDepth=2, must-match=.*, must-not-match=, permission=true
I 2008/11/25 15:01:37 CRAWLER LOCALCRAWL[1, 0, 0, 0]: enqueued for load http://www.ag.ch/ [eRjQkQZ3BHSA]
I 2008/11/25 15:01:38 PARSER Unable to parse 'http://www.ag.ch/'. No resource content available (1) source == null
I 2008/11/25 15:01:38 PLASMA Unable to parse the resource 'http://www.ag.ch/'. No resource content available (1) source == null
S 2008/11/25 15:01:53 SHUTDOWN caught termination signal
Dateianhänge
yacy00.zip
(13.4 KiB) 34-mal heruntergeladen
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon bluumi » Di Nov 25, 2008 6:56 pm

Eben fiel mir auf, ich habe hier beim Starten einen RemoteCrawl bekommen, den es ausgeführt hat, dann 90 sekunden später meinen Lokalen Crawl hat es nicht mehr ausführen können.
Dann habe ich RemoteCrawl deaktiviert. 20 Min später sah ich das mit dem RemoteCrawl, und es re-aktiviert, im Glauben es währe doch nur bei LokalenCrawls, der Fehler, aber da hat es auch nicht mehr funktioniert.

Hier hat es genau EINEN einzelnen Crawl geschafft und seit da keinen mehr.

Code: Alles auswählen
D 2008/11/25 18:25:25 CRAWLER REMOTETRIGGEREDCRAWL[0, 0, 0, 1]: URL=http://www.nvda-project.org/wiki, initiator=aFdLzGp0ZIAA, crawlOrder=false, depth=0, crawlDepth=0, must-match=.*, must-not-match=, permission=true
I 2008/11/25 18:25:25 CRAWLER REMOTETRIGGEREDCRAWL[0, 0, 0, 1]: enqueued for load http://www.nvda-project.org/wiki [cwJMhQ2ZuRIR]
D 2008/11/25 18:25:25 ROBOTS Trying to download the robots.txt file from URL 'http://www.nvda-project.org/robots.txt'.
D 2008/11/25 18:25:27 ROBOTS robots.txt could not be downloaded from URL 'http://www.nvda-project.org/robots.txt'. [404 Not Found].
E 2008/11/25 18:25:29 LanguageStatistics the language statistics folder langstats cannot be found
I 2008/11/25 18:25:30 PLASMA Excluded 0 words in URL http://www.nvda-project.org/wiki
I 2008/11/25 18:25:30 PLASMA *Indexed 481 words in URL http://www.nvda-project.org/wiki [cwJMhQ2ZuRIR]
        Description:  NVDA
        MimeType: text/html | Charset: UTF-8 | Size: 8526 bytes | Anchors: 57
        LinkStorageTime: 2 ms | indexStorageTime: 112 ms


D 2008/11/25 18:26:53 CRAWLER LOCALCRAWL[1, 0, 0, 0]: URL=http://www.swissteam.net/wiki/index.php?title=Test7, initiator=-ZAAFt45tfoC, crawlOrder=false, depth=0, crawlDepth=4, must-match=.*\.ch.*, must-not-match=, permission=true
I 2008/11/25 18:26:53 CRAWLER LOCALCRAWL[1, 0, 0, 0]: enqueued for load http://www.swissteam.net/wiki/index.php?title=Test7 [CFpofIzdMbhR]
I 2008/11/25 18:26:54 PARSER Unable to parse 'http://www.swissteam.net/wiki/index.php?title=Test7'. No resource content available (1) source == null
I 2008/11/25 18:26:54 PLASMA Unable to parse the resource 'http://www.swissteam.net/wiki/index.php?title=Test7'. No resource content available (1) source == null



D 2008/11/25 18:50:31 CRAWLER REMOTETRIGGEREDCRAWL[0, 0, 0, 2]: URL=http://markmail.org/message/trztg652ljvbtoje, initiator=vjb47pKoI2kQ, crawlOrder=false, depth=0, crawlDepth=0, must-match=.*, must-not-match=, permission=true
I 2008/11/25 18:50:31 CRAWLER REMOTETRIGGEREDCRAWL[0, 0, 0, 2]: enqueued for load http://markmail.org/message/trztg652ljvbtoje [Qp8HLUcKacvQ]
I 2008/11/25 18:50:31 BALANCER forcing crawl-delay of 395 milliseconds for markmail.org
I 2008/11/25 18:50:31 PARSER Unable to parse 'http://markmail.org/message/d6tix2gai6o73q22'. No resource content available (1) source == null
I 2008/11/25 18:50:31 PLASMA Unable to parse the resource 'http://markmail.org/message/d6tix2gai6o73q22'. No resource content available (1) source == null


Leider sehe ich aber zwischen 18:25 und 18:26 keine Fehlermeldung, welche mir aussagt wieso es EINEN remoteCrawl ausführten konnte :|

Hier die Zeilen zwischen dem funktionierenden RemoteCrawl und dem gescheiterten ersten LocalCrawl ...
Code: Alles auswählen
W 2008/11/25 18:25:37 YACY yacyClient.publishMySeed thread 'PublishSeed_underground-01' exception: The host did not accept the connection within timeout of 60000 ms; retry = 2
W 2008/11/25 18:25:37 YACY yacyClient.publishMySeed thread 'PublishSeed_Hermes' exception: The host did not accept the connection within timeout of 60000 ms; retry = 2
W 2008/11/25 18:25:37 YACY yacyClient.publishMySeed thread 'PublishSeed_MoreFreedom2' exception: The host did not accept the connection within timeoutof 60000 ms; retry = 2
I 2008/11/25 18:25:50 PLASMA Received 998 Entries 21 Words [9iok8xjBUlXB .. 9lozBNxUZ4lU]/119039783637314692 from c4GOj4NApRRf:apfelmaennchen/0.61505365, processed in 276 milliseconds, requesting 487/981 URLs, blocked 0 RWIs
I 2008/11/25 18:25:52 PLASMA Collecting DHT target peers for first_hash = wlAp1uTChYuE, last_hash = wlCOPvgA-3mu
I 2008/11/25 18:25:52 PLASMA Selected DHT target peer lanthanide:x9QjqPIk9Y_Q, distance2first = 198717936350869504, distance2last = 198662737269751048
I 2008/11/25 18:25:52 PLASMA Selected DHT target peer wolfhard:ydPomKdHIpWN, distance2first = 270743059808013960, distance2last = 270687860726895504
I 2008/11/25 18:25:52 PLASMA Selected DHT target peer brutus:0sEGV5EgJBfO, distance2first = 592344573602090824, distance2last = 592289374520972368

E 2008/11/25 18:25:52 YACY yacyClient.transferRWI error:Connection reset; b.length = 1024, off = 0, len = 1024
W 2008/11/25 18:25:52 PLASMA Transfer to peer wolfhard:ydPomKdHIpWN failed:'no_connection_1', Trying to reconnect ...
I 2008/11/25 18:25:53 PLASMA Selected DHT target peer dulcedo:148qJoTxccAZ, distance2first = 765471370159552032, distance2last = 765416171078433576
I 2008/11/25 18:25:53 PLASMA Received 487 URLs from peer c4GOj4NApRRf:apfelmaennchen/0.61505365 in 383 ms, blocked 0 URLs
I 2008/11/25 18:26:03 PLASMA Index transfer of 201 entries 16 words [wlAp1uTChYuE .. wlCOPvgA-3mu] and 201 URLs to peer lanthanide:x9QjqPIk9Y_Q in 11 seconds successful (18 words/s, 144666 Bytes)
I 2008/11/25 18:26:03 PLASMA DHT distribution: transfer to peer lanthanide finished.
I 2008/11/25 18:26:05 PLASMA Index transfer of 201 entries 16 words [wlAp1uTChYuE .. wlCOPvgA-3mu] and 201 URLs to peer brutus:0sEGV5EgJBfO in 12 seconds successful (15 words/s, 131124 Bytes)
I 2008/11/25 18:26:05 PLASMA DHT distribution: transfer to peer brutus finished.

E 2008/11/25 18:26:14 SERVER receive interrupted - exception 2 = Connection reset
W 2008/11/25 18:26:37 YACY yacyClient.publishMySeed thread 'PublishSeed_underground-01' exception: The host did not accept the connection within timeout of 60000 ms; retry = 3
W 2008/11/25 18:26:37 YACY yacyClient.publishMySeed thread 'PublishSeed_Hermes' exception: The host did not accept the connection within timeout of 60000 ms; retry = 3
I 2008/11/25 18:26:37 YACY publish: disconnected senior peer 'underground-01' from 79.206.255.15:9090: peer ping to peer resulted in error response (added < 0)
I 2008/11/25 18:26:37 YACY publish: disconnected principal peer 'Hermes' from 84.60.154.134:8088: peer ping to peer resulted in error response (added < 0)
W 2008/11/25 18:26:37 YACY yacyClient.publishMySeed thread 'PublishSeed_MoreFreedom2' exception: The host did not accept the connection within timeoutof 60000 ms; retry = 3
I 2008/11/25 18:26:37 YACY publish: disconnected senior peer 'MoreFreedom2' from morefreedom.ath.cx:8083: peer ping to peer resulted in error response(added < 0)
I 2008/11/25 18:26:37 YACY PeerPing: I am accessible for 4 peer(s), not accessible for 0 peer(s).
I 2008/11/25 18:26:37 YACY PeerPing: myType is senior

E 2008/11/25 18:26:45 YACY yacyClient.queryRemoteCrawlURLs error asking peer 'yellowfoot':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 60000 ms
W 2008/11/25 18:26:46 HTTPC wget(http://www.swissteam.net/wiki/index.php?title=Test7) failed: Read timed out

E 2008/11/25 18:26:53 YACY yacyClient.transferRWI error:Read timed out
W 2008/11/25 18:26:53 PLASMA Transfer to peer dulcedo:148qJoTxccAZ failed:'no_connection_1', Trying to reconnect ...
I 2008/11/25 18:26:53 PLASMA Selected DHT target peer 4o4:4tvV3f3Y6dvQ, distance2first = 1172578588731060776, distance2last = 1172523389649942320
D 2008/11/25 18:26:53 CRAWLER LOCALCRAWL[1, 0, 0, 0]: URL=http://www.swissteam.net/wiki/index.php?title=Test7, initiator=-ZAAFt45tfoC, crawlOrder=false, depth=0, crawlDepth=4, must-match=.*\.ch.*, must-not-match=, permission=true
I 2008/11/25 18:26:53 CRAWLER LOCALCRAWL[1, 0, 0, 0]: enqueued for load http://www.swissteam.net/wiki/index.php?title=Test7 [CFpofIzdMbhR]
I 2008/11/25 18:26:54 PARSER Unable to parse 'http://www.swissteam.net/wiki/index.php?title=Test7'. No resource content available (1) source == null
I 2008/11/25 18:26:54 PLASMA Unable to parse the resource 'http://www.swissteam.net/wiki/index.php?title=Test7'. No resource content available (1) source == null
Dateianhänge
threaddump.zip
(3.48 KiB) 37-mal heruntergeladen
Zuletzt geändert von bluumi am Di Nov 25, 2008 11:54 pm, insgesamt 1-mal geändert.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon Lotus » Di Nov 25, 2008 9:10 pm

@bluumi:
bei mir funktioniert das Crawlen der genannten Seiten (ebenfalls 5365). Trat das nur dieses eine Mal in dieser Kombination auf, oder noch immer?
Der Fehler passt wohl auch eher hier rein: viewtopic.php?f=6&t=1577
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Verlust aller Seiten im lokalen Crawlen Puffer bei Update

Beitragvon bluumi » Di Nov 25, 2008 11:48 pm

Wie ich erwähnte tratt derselbe Fehler auch beim letzten Upgrade Versuch (an dem Tag welchem ich die Msg gepostet habe) dieser einen (SLES)Linux Kiste auf. Mit der r5246 läuft Sie ohne Probleme (400'000 Seiten Job).
Nun stellt sich für mich wie erwähnt die Frage ob ersichtlich ist was der Kiste nach dem Client Update fehlt. :cry:
Ich hab wirklich nicht gross Lust dieses Verzeichniss (und somit die Yacy Installation) erneut zu löschen. Und ein downgrade ist ja wegen der anderen Dateistruktur nicht möglich. Falls ich also nur "libIchWeissNix" hätte nach installieren müssen, währ das einfacher. Dass er diese SwissTeamSeite sonst indexen kann ist mir klar, zumal ich meinen YacY peer ja öfters mit einer WikiSeite voller Links beschäftigt habe :)

Hopple Du hast recht .. (?) "source == null" steht auch im anderen Thread. Hab zwar mit der suche gesucht, aber diese fand den Beitrag nicht. Hmm.. schade, dann ist der Fehler scheinbar schon länger bekannt. Nur dass es bei mir eben so ist dass die Kiste mehr als Queue Shredder bezeichnet werden könnte. Ich konnte bisher mehr durch "zufall" erleben dass es einen Job erledigt hat, alles andere wird verworfen.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron