Indexed vs. Crawled

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Indexed vs. Crawled

Beitragvon fherb » Mo Sep 21, 2015 11:18 pm

Hallo!

Eventuell (, wenn ich das jetzt nicht alles falsch sehen), wären auf /Crawler_p.html eigentlich einige Änderung der Bezeichnung notwendig (oder auch mehr inhaltlich):

Grundsätzlich stört mich ein wenig, dass auf der Seite in der Darstellung nicht klar ersichtlich ist: Welche/wie viel Seiten werden ercrawlt und welche/wie viel indiziert: Also vor allem in den angezeigten Werten. Im Prinzip sind zwar die Überschriften zu den Werten klar. Aber nach meiner Beobachtung eben auch nicht:

1) Prinzipiell erscheinen unter "Running Crawls" nicht alle Seiten, die geladen werden, sondern nur die, die indiziert werden. Das ist natürlich an der Stelle auch sehr nützlich. Mich interessieren ja die Links auf die Indizierung der Seiten, die indiziert werden. Damit ist aber die Überschrift "Crawled Pages" falsch.

2) Das Gleiche unter "Fortschritt": Es werden nach meiner Beobachtung auch weitere Seiten im Hintergrund gecrawlt (was man u.a. in den abgelehnten URLs sieht), die zwar auf Links ausgewertet werden, aber nicht indiziert werden (was ich unter crawling verstehe). Unter Fortschritt werden aber offenbar nur die indizierten Seiten angezeigt. In Verbindung mit dem Datentraffic halte ich das aber nicht für richtig: Denn wenn ich den Regex für's Indizieren sehr stark einschränke, aber alle Pages einer Domain ercrawle, dann kann ich unter Umständen erreichen, dass hier nur "5 Seiten pro Minute" angezeigt werden, wärendessen aber im Hintergrund 100 Seiten pro Minute herunter geladen werden.

Oder täusche ich mich?

Wenn nicht, ist das in gewisser Weise gefährlich: Ercrawle ich eine einzige Domain mit sehr speziellen Indizierungsregeln, kann ich hier nämlich nicht mit der Wahl der Geschwindigkeit einstellen, wie stark ich den Server der Domain mit dem Crawling belaste. Ich kann nur einstellen, wie viele Seiten ich im Mittel indiziere. Sind das durch entsprechend sinnvoll gesetze Regex-Ausdrücke aber nur ein paar Prozent der Links, die der Crawler auf den Seiten findet, dann belastet er den Server mehr, als vorgesehen.

Man kann das auch sehr schön am Traffic sehen: Obwohl minutenlang unter Fortschritt 0 Crawler PPM angezeigt werden, vergrößert sich der Daten-Traffic. Das sind dann alles Seiten, die nur auf Links ausgewertete werden, die ich aber explizit mit einem Regex nicht zur Indizierung vorgesehen habe. Wenn das aber so ist, bedeutet das, dass der Regelkreis für die PPM voll aufdreht, weil er als Istgröße die indizierten Seitenzahlen erhält. Oder? Oder regelt er im Hintergrund auf den tatsächlichen Traffic?

Ich hab ein wenig Angst, dass mir mal ein Betreiber einer Site auf's Dach steigt, weil ich seinen Server über Tage zu sehr belaste. Ich hab extra grundsätzlich nur 30 Seiten/Minute eingestellt. Wenn ich aber nur 10% der Seiten im Mittel indiziere, können das auch 300 Seiten pro Minute im Crawling sein. Oder?

Wunsch: Vielleicht wäre eine zukünftige Alternative, den Regelkreis auf MByte/Minute (also den Traffic) zu normieren. Alternativ auf maximalen Traffic pro Domain oder auf den gesamten Traffic.

Viele Grüße
Frank

PS: Gerade hab ich ein wenig weiter überlegt: Wenn ein 0-8-15-Nutzer unter Freewolrd Crawls startet und sich wenig Gedanken macht, kann der Crawl auch schon mal durch erlaubte ?-URLs tagelang im Kreise laufen. Insbesondere bei Foren, wo oft zu einer Seite unzählige ?-Links laufen, da jeder Kommentar damit adressiert wird. Vielleicht habt ihr abgesichert, dass dann die Crawl-PPM nicht zu hoch werden. Vielleicht aber auch nicht.
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast