Wieso gehts nicht weiter?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wieso gehts nicht weiter?

Beitragvon lulabad » Do Mai 14, 2009 10:20 am

Mein Peer macht immer mal eine pause beim Crawlen.
Das ist ganz komisch. Ich hab 30.000 Urls in der Crawlqueue, 0 im indexer und 0 im loader. Der Cache ist nicht voll und RAM ist auch noch genügend da (ca. 1Gig von 4 Gig benutzt).
Aber er macht einfach nichts. Nach einer nicht definierbaren Zeitspanne läuft er dann plötzlich los und crawlt mal schnell mit 200PPM um dann wieder eine Pause zu machen. Ich hab mal einen Threaddump während der Pause angehängt. Auch einen Screenshot der Statusseite.
Ist übrigens ein Windows Vista 64bit (auch java ist 64 bit).
Dateianhänge
Unbenannt.png
Unbenannt.png (189.68 KiB) 557-mal betrachtet
threaddump.txt.tar.gz
(4.97 KiB) 20-mal heruntergeladen
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Wieso gehts nicht weiter?

Beitragvon Orbiter » Do Mai 14, 2009 10:30 am

hört sich eher nach forciertem Crawl-Delay an. Gucke mal ins log ob da was von forced crawl delay steht.
Usache sind hier meistens crawl-delay direktiven in robots.txt
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wieso gehts nicht weiter?

Beitragvon dulcedo » Do Mai 14, 2009 10:40 am

Kann ich bestätigen, das passiert imemr wieder mal. Mich stört es nicht da nur kurzer Zeitraum. Besser schonend crawlen.
In dem Zusammenhang: Die IDLE-Delays sind nach unten hin auf 1000ms begrenzt, auch Absicht?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Wieso gehts nicht weiter?

Beitragvon lulabad » Do Mai 14, 2009 11:27 am

Orbiter hat geschrieben:hört sich eher nach forciertem Crawl-Delay an. Gucke mal ins log ob da was von forced crawl delay steht.
Usache sind hier meistens crawl-delay direktiven in robots.txt

Ja, das dürfte es wohl sein. Ich hab Crawl-Delays von bis zu 60 Sekunden ! drin. Das ganze über ca. 3-4 verschiedene Domains.
Aber warum werden dann nicht einfach andere Domains gecrawlt? Ach, das ist ja das Thema mit dem Balancer, oder?
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Wieso gehts nicht weiter?

Beitragvon PCA42 » Do Mai 14, 2009 3:13 pm

lulabad hat geschrieben:Aber warum werden dann nicht einfach andere Domains gecrawlt? Ach, das ist ja das Thema mit dem Balancer, oder?

Genau, das liegt an der bisher nicht optimalen Mischung der Domains
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Wieso gehts nicht weiter?

Beitragvon Orbiter » Do Mai 14, 2009 3:21 pm

ja das ist nicht einfach mit dem Balancer, und um dieses Problem zu umgehen muss man halt andere URLs 'anfressen', in der Hoffnung dass man nach x angefressenen URLs vom gleichen Host dann eins von einem anderen Host bekommt. Und dann muss man auch schauen dass man es nicht verpasst diese neue Domäne auch mal anzunavigieren. Das sollte in den meisten Fällen funktionieren, nur dann nicht wenn x zu klein ist. thq plädiert ja hier für x < 1000 und ich hab versucht es zu erklären. Vielleicht ist das hier anschaulich.

Die 1000ms idle-delay Begrenzung nach unten ist absicht, und auch sinnvoll, denn es ist der Abstand zwischen zwei mal gucken wenn in der Zwischenzeit nichts passiert ist. Wenn man das kleiner macht guckt der sich nen Wolf.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wieso gehts nicht weiter?

Beitragvon dulcedo » Fr Mai 15, 2009 10:08 am

Orbiter hat geschrieben:Die 1000ms idle-delay Begrenzung nach unten ist absicht, und auch sinnvoll, denn es ist der Abstand zwischen zwei mal gucken wenn in der Zwischenzeit nichts passiert ist. Wenn man das kleiner macht guckt der sich nen Wolf.


Ich habe deine neuen Standardwerte (5952) auf einen leistungsfähigen Peer übertragen, die sind sehr gut zum flott und konstant crawlen wenn keine grossartige Res-Beschränkung.
Aber mit den Standard 180M geht er dann schnell in die Knie wenn ein Benutzer anfängt zu crawlen. Das sollte man zumindest gut dokumentieren, oder warnen bei Crawl-Start, dass der Benutzer mehr RAM zuteilen soll. Bei Crawl-Start prüfen?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron