Crawl Jobs grundlos innerhalb 24h alle einfach beendet?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawl Jobs grundlos innerhalb 24h alle einfach beendet?

Beitragvon Terminar » Mi Jul 15, 2009 9:51 am

Hi,

ich habe seit gestern Mittag 16 Crawl-Jobs rein gepackt. Ein paar sind "normal" fertig geworden. Vor 10 Minuten informiert mich die YaCy-Bar, das ca. 6 noch laufende Jobs beendet sind, da gingen auf einmal zeitgleich die Notify Fenster auf.

Ich habe mal im Crawl Profile Editor geschaut, die stehen jetzt alle auf Status: terminated, Max-Age steht seltsamerweise auf 14.04.2009 (wo kommt das her und was ist damit gemeint?), Uhrzeit und Datum stimmen aber auf der Kiste. Unter Status/Action stehen alle als "Finished".

Wenn ich unter Crawl Results schaue sehe ich, das gecrawlt wurde, ich bin aber der Meinung, das er bei einigen Jobs noch erheblich länger und mehr hätte crawlen können.

Fragen sind nun:
- Ist es normal das er innerhalb von ein paar Sekunden scheinbar "grundlos" laufende Jobs beendet? Wenn nein, was könnte der Grund sein? Internetverbindung ist da, Platz auf der Platte auch.
- Wie kann man die Jobs per einfachem Klick wieder "neu starten"? Ich kann die nur rauslöschen im Profile Editor?

Bis denn
Björn
Terminar
 
Beiträge: 6
Registriert: Do Jul 09, 2009 3:56 pm

Re: Crawl Jobs grundlos innerhalb 24h alle einfach beendet?

Beitragvon Lotus » Mi Jul 15, 2009 2:27 pm

Terminar hat geschrieben:Max-Age steht seltsamerweise auf 14.04.2009 (wo kommt das her und was ist damit gemeint?)

Das kommt von der Recrawl-Option und wird beim Crawl-Start errechnet. Seiten die vor dieser Zeit indexiert wurden, werden erneut gecrawlt.

Terminar hat geschrieben:Wenn ich unter Crawl Results schaue sehe ich, das gecrawlt wurde, ich bin aber der Meinung, das er bei einigen Jobs noch erheblich länger und mehr hätte crawlen können.

Vielleicht gibt es dort dynamische Links (mit "?") und diese Option war nicht aktiviert.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawl Jobs grundlos innerhalb 24h alle einfach beendet?

Beitragvon Terminar » Do Jul 16, 2009 8:08 am

Lotus hat geschrieben:Vielleicht gibt es dort dynamische Links (mit "?") und diese Option war nicht aktiviert.


Die hatte ich angehackt. Ich finde es aber auch irritierend, das alle auf einmal innerhalb ein paar Sekunden "fertig" geworden sind.

Kann man irgendwo die eingetragenen Links auf "reCrawl" stellen, ohne die Settings alle neu eingeben zu müssen?
Die stehen doch schon als Crawl-Profil drin, wenn auch als terminated/Finished...
Wo/welche Logs sind für die Crawls zuständig, sodaß ich mir die Logs selbst anschauen kann, ob es Probleme gab, warum er aufgehört hat?

Bis denn
Björn
Terminar
 
Beiträge: 6
Registriert: Do Jul 09, 2009 3:56 pm

Re: Crawl Jobs grundlos innerhalb 24h alle einfach beendet?

Beitragvon Lotus » Do Jul 16, 2009 10:29 am

Unter /IndexCreateIndexingQueue_p.html (CrawlStart > oben die Warteschlangen) sollten unten auf der Seite Meldungen zu jeder Seite stehen die nicht erfasst wurde.

Den "alten Crawl erneut starten" Button haben wir nicht.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawl Jobs grundlos innerhalb 24h alle einfach beendet?

Beitragvon dulcedo » Do Jul 16, 2009 11:01 am

Ich mache dann für den Link copy-paste und die wichtigsten Einstellungen sind für mich passend voreingestellt. Ansonsten:

- Tiefe:
0 nur aktuelle Seite
1-3 für eben mal eine Seite aktualisieren mit den nötigsten Referenzen zu andren Seiten.
4-5 Startpunkt und ausführlicher Kontext.
ab 6 musst du mit sehr vielen URLs rechnen, 8 wäre annähernd das komplette Internet.

-RecrawlKnownURLs ist das was Lotus oben erklärt hat, im Zweifel aktivieren wenn bei einem zweiten Versuch nichts oder zu wenig gecrawlt wird.

-Accept URLs with '?' / dynamic URLs: mache ich bei tiefen Crawls aus (ab Stufe 4) sonst indexiert er das halbe internet und das meiste davon Werbemüll oder unnötige CMS-Links. Sinnvoll für Foren, dann aber anderwertig eingrenzen, verschiedene Startpunkte innerhalb und geringe Tiefe.

-Index Media: für Bildersuche aber benötigt Bandbreite und reduziert die Geschwindigkeit beim crawlen.

-Do Remoteindexing: Ist zu beachten, wenn du Ergebnisse schnell lokal finden möchtest dann deaktivieren, ansonsten werden teile des crawls von anderen Peers übernommen und Ergebnisse auch dort gespeichert. Sinnvoll ist das Aktivieren dann wenn du sicherstellen magst dass etwas gefunden wird auch wenn der peer offline und über andere gesucht wird. Und Geschwindigkeitsgewinn beim crawlen.

Ansonsten wäre ich mit dem Crawler derzeit vorsichtig, schwer einzuschätzen was Programm- und was Bedienungsfehler ist, es wird dort einiges überarbeitet.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron