Zombie-Crawler "file:///sitemap.xml"

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Zombie-Crawler "file:///sitemap.xml"

Beitragvon achtbits » Di Mai 15, 2012 12:34 pm

Hi,

im "Crawl Profile Editor" taucht aus einem mir nicht bekannten Grund ein Crawl-Prozess "file:///sitemap.xml" auf, d.h. solch einen Crawl habe ich niemals gestartet. Meine Crawl-Profile zeigen enweder auf normale URLs der Form http://example.com oder Sitemaps wie http://example.com/sitemap.xml.gz.
Ich vermute, dass irgendeiner dieser Server einen Link auf "file:///sitemap.xml" liefert und daraus ein neuer Crawl-Prozess gebildet wird.
Dieser Zombieprozess belegt einen der Slots, liefert vermutlich niemals ein Wort und wird niemals beendet (nur manuell).

Ich hoffe, ich konnte es nachvollziehbar beschreiben.
Also,
– macht es Sinn, URIs der Form file:///file.name zu indizieren? Diese Links können im Browser eines Clients eh nicht dargestellt werden.
– Wie kommt es dazu, dass plötzlich (vielleicht aus einem Link) ein neuer Crawl entsteht?

Ich helfe gern bei der Suche, wenn ich das Logging selektiv aufdrehen kann.

Sebastian
achtbits
 
Beiträge: 10
Registriert: Fr Mai 11, 2012 2:27 pm

Re: Zombie-Crawler "file:///sitemap.xml"

Beitragvon Orbiter » Di Mai 15, 2012 12:40 pm

Hallo Sebastian,
achtbits hat geschrieben:– macht es Sinn, URIs der Form file:///file.name zu indizieren? Diese Links können im Browser eines Clients eh nicht dargestellt werden.

im öffentlichen (p2p oder Portal) Modus macht das keinen Sinn und darf auch nicht sein. Im Intranetmodus schon, wurden wir ganz oft nach beim Linuxtag gefragt. Wenn du einen öffentlichen Modus hast sollten diese Links als Intranet-Links abgelehnt werden.
achtbits hat geschrieben:– Wie kommt es dazu, dass plötzlich (vielleicht aus einem Link) ein neuer Crawl entsteht?

das finde ich ziemlich merkwürdig und habe auch keine Antwort dazu. Das Anlegen eines Crawl Profils ist eine relativ komplexe Sache und wird eigentlich nur durch das Crawl Start Servlet ausgelöst.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zombie-Crawler "file:///sitemap.xml"

Beitragvon achtbits » Di Mai 15, 2012 3:57 pm

Orbiter hat geschrieben:im öffentlichen (p2p oder Portal) Modus macht das keinen Sinn und darf auch nicht sein. Im Intranetmodus schon, wurden wir ganz oft nach beim Linuxtag gefragt. Wenn du einen öffentlichen Modus hast sollten diese Links als Intranet-Links abgelehnt werden.

Ich verstehe jetzt den Sonderfall für file-URIs. Und wenn man sie in seinem Intranet nicht haben will, kann man sie auf eine Blacklist setzen.
Mein Peer läuft im öffentlichen Modus, im "freeworld"-Netzwerk.
Orbiter hat geschrieben:– Wie kommt es dazu, dass plötzlich (vielleicht aus einem Link) ein neuer Crawl entsteht?
das finde ich ziemlich merkwürdig und habe auch keine Antwort dazu. Das Anlegen eines Crawl Profils ist eine relativ komplexe Sache und wird eigentlich nur durch das Crawl Start Servlet ausgelöst.

Ich führe mal ab jetzt täglich "grep "file:///" /var/lib/yacy/LOG/*" via cron aus. Ich möchte darauf etwas Licht werfen, aber das Protokollieren nicht generell auf Debug heben, hast du eine Idee, bei welcher Quelle ich damit zuerst anfangen sollte?

Sebastian
achtbits
 
Beiträge: 10
Registriert: Fr Mai 11, 2012 2:27 pm

Re: Zombie-Crawler "file:///sitemap.xml"

Beitragvon achtbits » Mo Mai 28, 2012 11:44 am

Orbiter hat geschrieben:im öffentlichen (p2p oder Portal) Modus macht das keinen Sinn und darf auch nicht sein. Im Intranetmodus schon, wurden wir ganz oft nach beim Linuxtag gefragt. Wenn du einen öffentlichen Modus hast sollten diese Links als Intranet-Links abgelehnt werden.


Heute habe ich das beschriebene Verhalten wieder beobachtet, aber ich betreibe YaCy im öffentlichen Modus (1.02/9142).

Sebastian
achtbits
 
Beiträge: 10
Registriert: Fr Mai 11, 2012 2:27 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron