Crawler hängt fest?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawler hängt fest?

Beitragvon wsb » Do Nov 20, 2008 3:27 pm

hallo allerseits!

ich hatte ja vor einigen monaten schon mal (vergeblich) versucht, die webserver der domain uni-hannover.de zu crawlen. damals war das daran gescheitert, dass der crawler (oder werauchimmer) bei den pdf-dateien hängenblieb.

nun dachte ich mir, es mal mit der neusten main-version aufs neue zu probieren (0.610/05246). leider ist das wohl wieder fehlanzeige: in der crawler queue werden seit stunden die gleichen urls angezeigt, und nichts tut sich mehr; der letzte eintrag ist
http://stream.mml.uni-hannover.de/Video ... o/Arlt.wvx

vielleicht scheitert der crawler an diesem dateityp? oder was mag das problem sein?

grüße, wsb
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler hängt fest?

Beitragvon wsb » Do Nov 20, 2008 4:12 pm

nachdem stundenlang nix passierte, zeigt die crawler queue jetzt neue urls an :-)
das problem scheint also nur meine ungeduld zu sein ...
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler hängt fest?

Beitragvon Lotus » Fr Nov 21, 2008 12:20 pm

Es passt zumindest Thematisch hier:
Mein Peer unterbricht die Crawls ebenfalls unregelmäßig für lange oder kurze Zeit (r5352, Linux). Im Log steht dann lange Zeit nur das:
Code: Alles auswählen
D 2008/11/21 12:15:01 CRAWLER CoreCrawl: too many processes in indexing queue, dismissed (sbQueueSize=84)
D 2008/11/21 12:15:03 CRAWLER CoreCrawl: too many processes in indexing queue, dismissed (sbQueueSize=84)
I 2008/11/21 12:15:03 PLASMA Rejecting RWIs from peer zFKV6NtP8CBL:smaug/0.6140535. We are too busy (buffersize=10035).
D 2008/11/21 12:15:05 CRAWLER CoreCrawl: too many processes in indexing queue, dismissed (sbQueueSize=84)
D 2008/11/21 12:15:07 CRAWLER CoreCrawl: too many processes in indexing queue, dismissed (sbQueueSize=84

Da sollte bestimmt der Buffer abgebaut werden, was nicht passiert.

Threaddump aus dem Webinterface im Anhang.
Dateianhänge
threaddump.zip
(6.99 KiB) 18-mal heruntergeladen
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawler hängt fest?

Beitragvon Lotus » So Nov 23, 2008 9:22 pm

Falls r5358 ein Schuss in diese Richtung war: bisweilen erfolgreich.
Nun habe ich nur noch gelegentliche Pausen. Mir ist bisher noch nicht gelungen eine einzufangen.
Dateianhänge
PerformanceGraph.png
PerformanceGraph.png (9.26 KiB) 1043-mal betrachtet
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawler hängt fest?

Beitragvon Orbiter » So Nov 23, 2008 11:29 pm

tja, da gab es im Balancer einen total missglückten Versuch, Reserven für ein breiteres Balancing aufzubauen, d.h. nicht zu viele verschiedene Domänen aus dem Balancer zu entfernen, damit zukünftige unausgeglichene Crawl-Listen mit den aufgesparten Domänen durchgemischt werden können. Das hat aber dazu geführt, das eine sehr lange Liste URLs nie abgebaut wurden. Warum es dann doch irgendwann weiter ging ist mir ein Rätsel, jedenfalls hat das dazu geführt, das beim Start-Up ewig lange Listen initialisiert werden mussten. Als Gegenmaßnahme habe ich die falsche Routine geflickt, und eine Begrenzung in der Anhäufung solcher Domänen-Listings gebaut. beides sollte für den von dir beschriebenen Effekt geführt haben.

Das ganze habe ich durch Zufall gefunden: ich war eigentlich auf der Suche nach einem 'Schuldigen' für zu lange Start-Up Zeiten. Dieser Fehler im Balancer hat als Seiteneffekt zu einer hohe Start-Up Zeit geführt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler hängt fest?

Beitragvon PCA42 » Mo Nov 24, 2008 9:52 am

Der Crawler läuft jetzt bei mir wie ein Bienchen. Einzige Begrenzung ist der Platz im DHT-Puffer, denn der ist jetzt immer voll. Um mal Werte zu nennen: 750 MB Crawler-Traffic für Remote-Crawls in unter 4 Stunden. :o
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Crawler hängt fest?

Beitragvon Phiber » Mo Nov 24, 2008 2:55 pm

Sieht jetzt wirklich um einiges besser aus, er hat nicht mehr diese Unterbrüche wo die PPM sprunghaft auf 0 sinkt und dann wieder hochgeht.

Wirklich super gemacht :-)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Crawler hängt fest?

Beitragvon wsb » Mo Nov 24, 2008 5:13 pm

PCA42 hat geschrieben:Der Crawler läuft jetzt bei mir wie ein Bienchen. Einzige Begrenzung ist der Platz im DHT-Puffer, denn der ist jetzt immer voll. Um mal Werte zu nennen: 750 MB Crawler-Traffic für Remote-Crawls in unter 4 Stunden. :o

DAS liest sich gut! Welche Version muss ich holen, damit das auch bei mir funktioniert? Ich hatte ein paar Tage lang nicht hingesehen, weil ich ja dachte, es liegt an meiner Ungeduld - aber nun hängt wieder alles fest ...
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler hängt fest?

Beitragvon Orbiter » Mo Nov 24, 2008 5:20 pm

0.615
hab die Versionsnummer nach dem Commit hochgesetzt, war schon ein sehr blöder Fehler für den sich sogar ein Main Release lohnen würde.
(dazu fehlt aber noch ein Flicken des DHT Versand entsprechend hinzugekommener Targets und der vielen anderen Bugs die wir wieder in der Bug-Sektion haben)
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler hängt fest?

Beitragvon wsb » Mo Nov 24, 2008 6:29 pm

Orbiter hat geschrieben:0.615
hab die Versionsnummer nach dem Commit hochgesetzt, war schon ein sehr blöder Fehler für den sich sogar ein Main Release lohnen würde.
(dazu fehlt aber noch ein Flicken des DHT Versand entsprechend hinzugekommener Targets und der vielen anderen Bugs die wir wieder in der Bug-Sektion haben)

WOW!!! :-) Ein völlig neues "YaCy-Gefühl": jetzt LÄUFT der Crawler mit ca. 500 Seiten pro Minute über die Webserver der Uni Hannover. Werde ALLE Releases updaten auf 0.615.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler hängt fest?

Beitragvon wsb » Mo Nov 24, 2008 9:14 pm

wsb hat geschrieben:
Orbiter hat geschrieben:0.615
hab die Versionsnummer nach dem Commit hochgesetzt, war schon ein sehr blöder Fehler für den sich sogar ein Main Release lohnen würde.
(dazu fehlt aber noch ein Flicken des DHT Versand entsprechend hinzugekommener Targets und der vielen anderen Bugs die wir wieder in der Bug-Sektion haben)

WOW!!! :-) Ein völlig neues "YaCy-Gefühl": jetzt LÄUFT der Crawler mit ca. 500 Seiten pro Minute über die Webserver der Uni Hannover. Werde ALLE Releases updaten auf 0.615.

Und nun doch noch ne Frage, weil der Crawler so schön läuft: in früheren YaCy-Versionen stand auf der Such-Seite immer unter der Eingabebox, wieviele URLs indexiert sind. Das steht dort jetzt nicht mehr: wie finde ich es heraus? Und wie finde ich heraus, von wievielen SERVERn Seiten indexiert wurden?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler hängt fest?

Beitragvon Lotus » Mo Nov 24, 2008 10:06 pm

Die Anzahl der Seiten finden sich in der Admin Konsole unten im Banner oder bei laufendem Crawl auch auf der Beobachtungsseite.
Die indexierten Domains kannst du über die Index Administration im URL Admin (unten) exportieren.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawler hängt fest?

Beitragvon wsb » Do Nov 27, 2008 5:04 pm

Lotus hat geschrieben:Die Anzahl der Seiten finden sich in der Admin Konsole unten im Banner oder bei laufendem Crawl auch auf der Beobachtungsseite.
Die indexierten Domains kannst du über die Index Administration im URL Admin (unten) exportieren.

Ok, danke! Habs gefunden. Aber jede beantwortete Frage zieht neue nach sich ;-) :
auf der Seite "Admin Console" (Status.html) steht unten in der Grafik "Links: 206.31". Rechts unter "System Status" steht "Local Crawl 331,702" Welche Zahl ist jetzt die Richtige? (Anzahl der gecrawlten Webseiten) . Bei "WatchCrawler_p.html" steht 206,330. Eine Vermutung könnte sein?: über 331,702 Seiten ist der Crawler gelaufen, und ca. 206.000 hat er dem Indexer weitergereicht; der Rest waren Dubletten (gleiche Seiten unter verschiedenen URLs)?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler hängt fest?

Beitragvon bluumi » Do Nov 27, 2008 5:37 pm

"Local Crawl 331,702" = noch zu crawlen.. also das sind die welche der Crawler noch VOR sich hat. (Dies können aber durchaus noch mehr werden, wenn die Links zu links verlinken) ;)
in der Grafik "Links: 206.31" = bereits gecrawlt, also diejenigen HINTER "ihm", die welche Du (bzw Dein Peer) bereits erledigt hat.

Bei "WatchCrawler_p.html" steht 206,330
über diesem steht aber auch "Crawler Queues" oder Puffer, das heisst also dass es diese Seiten erst noch vor sich hat. Dein Peer dürfte damit noch was vor sich haben ...
Und um Dich noch ein wenig zu verwirren :)
Unter "Network.html" gibt es noch eine Zahl, die "URLs for Remote Crawl", das sind dann noch Seiten, welche Dein Peer anderen zum crawlen überlässt, solange er selber noch ausgelastet ist mit dem Abarbeiten der Tiefe(n)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Crawler hängt fest?

Beitragvon wsb » Do Nov 27, 2008 5:48 pm

bluumi hat geschrieben:"Local Crawl 331,702" = noch zu crawlen.. also das sind die welche der Crawler noch VOR sich hat. (Dies können aber durchaus noch mehr werden, wenn die Links zu links verlinken) ;)
in der Grafik "Links: 206.31" = bereits gecrawlt, also diejenigen HINTER "ihm", die welche Du (bzw Dein Peer) bereits erledigt hat.

Bei "WatchCrawler_p.html" steht 206,330
über diesem steht aber auch "Crawler Queues" oder Puffer, das heisst also dass es diese Seiten erst noch vor sich hat. Dein Peer dürfte damit noch was vor sich haben ...
Und um Dich noch ein wenig zu verwirren :)
Unter "Network.html" gibt es noch eine Zahl, die "URLs for Remote Crawl", das sind dann noch Seiten, welche Dein Peer anderen zum crawlen überlässt, solange er selber noch ausgelastet ist mit dem Abarbeiten der Tiefe(n)

Ok, danke! Nein, nicht verwirrt - momentan ist (erstmal) alles klar.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron