Crawler schläft ständig ein

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Crawler schläft ständig ein

Beitragvon ausgerutscht » Do Jun 12, 2014 10:43 pm

Hallo,
ich beschäftige mich seit einigen Tagen mit YaCy und habe nun leider das Problem, dass das Crawling nicht mehr so richtig will. Ich schätze, es gibt einem Zusammenhang mit diesem Thema: http://forum.yacy-websuche.de/viewtopic.php?f=18&t=5163
Wenn ich auf CrawlStartExpert.html gehe und dort eine oder mehrere URLs eingebe, kommt sofort der grüne Haken. Die Linkliste (automatische Sitemap) dadrunter kommt aber nicht mehr, stattdessen nur dieses kreiselnde Wartesymbol. Früher war das anders und da hat YaCy auch ordentlich gecrawlt, sodass ich sogar aufpassen musste, nicht zu viele PPMs zu erreichen (wegen Exceptions).

Wenn ich den Crawl Job dann starte, ruft der Crawler tatsächlich ein paar Seiten auf, aber nach spätestens einer Minute hört er auch schon wieder auf bzw. lädt nur noch ca. 1 mal pro Minute eine neue URL. Weder Festplatte, noch CPU oder Internetleitung sind dabei ausgelastet. Das ganze passiert unabhängig davon, ob ich nur einen oder viele Crawl Jobs habe. Interessanterweise kann ich den Crawler aber kurzzeitig manuell wieder in Schwung bringen, indem ich ein HTTP-Seite über den YaCy-Proxy lade. Das muss allerdings eine Seite sein, die auch indexiert wird. Wenn der Proxy-Indexer anspringt, wird der Crawler-Indexer also auch kurz angestoßen.

Hat jemand eine Idee, wie ich das beheben kann?
ausgerutscht
 
Beiträge: 6
Registriert: Do Jun 12, 2014 8:11 pm

Re: Crawler schläft ständig ein

Beitragvon Orbiter » Fr Jun 13, 2014 5:09 am

der crawler beachtet die crawl-delay Zahl in der robots.txt, läd nicht mehr als 120 Seiten Pro Minute von der gleichen Domäne und richtet sich ausserdem nach der Antwortzeit des Zielservers: antwortet der langsam, crawlt YaCy auch langsam(er). Details dazu siehst du, wenn du auf /IndexCreateQueues_p.html?stack=LOCAL gehst und dann den API-Knopf oben rechts drückst (oder direkte URL: /api/latency_p.xml ) Im latency_p.xml siehst du die durchschnittlichen response times; YaCy macht bei der Abfrage mindestens eine genau so große Pause wie die response time ist.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler schläft ständig ein

Beitragvon ausgerutscht » Fr Jun 13, 2014 10:37 am

Vielen Dank für deine Antwort. Dass YaCy Pausen macht, um DoS-Attacken zu vermeiden, ist mir bekannt und das ist auch richtig so. Aber das erklärt nicht, warum der Crawler immer wieder einschläft. Und vor allem erklärt es nicht, warum er wieder kurz aufwacht, sobald man Seiten (auch von Domains, die nicht in Crawler-Jobs enthalten sind) über den Proxy aufruft.

Um nochmal zu verdeutlichen, was ich mit "einschlafen" meine:
- Als Crawler PPM wird über lange Zeiten 0 angezeigt. Wenn es hoch kommt, wird die Zahl mal zweistellig.
- Auch wenn der Crawler eigentlich über 10 Jobs hat, jeder davon auf anderen Domains, besucht der Crawler immer nur dieselben 2-3 Domains. Die anderen werden ignoriert, als wären die Jobs schon erledigt.
- Wird der Crawler durch den Proxy kurz angestoßen, kommt es kurzfristig schonmal zu 400 oder 500 PPM, aber dann schläft der Crawler wieder ein.

Edit: Hier mal ein Screenshot: http://imageshack.com/a/img823/1152/j2xk.png

Aus der /api/latency_p.xml werde ich übrigens nicht schlau. Ich kann nur vermuten, was genau <count>, <average>, <robots> und <flux> in diesem Zusammenhang heißen. Das ist übrigens eine generelle Schwäche von YaCy. Überall stehen irgendwelche Fachbegriffe, aber nirgens werden sie ordentlich erklärt.
ausgerutscht
 
Beiträge: 6
Registriert: Do Jun 12, 2014 8:11 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste