Zu wenige Links aufgelöst?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Zu wenige Links aufgelöst?

Beitragvon Seitenreiter » Mi Sep 01, 2010 11:49 am

Hi, ich erstelle Crawlvorgänge wie folgt:
url:www.mecklenburg-vorpommern.eu
MM Filter .*
Crawl Depth 4
Recrawl if older 0
Index textmnedua
Domain Filter Deptn 1
Domain Max Pages -1

Nur irgendwie gibt es dann kurz einen Peak ~200ppm für 5min und dann war es das auch schon? Ist das wirklich normales Verhalten? Kommt mir bissel kurz vor für eine Domain dieser Größe oder habe ich falsche Einstellungen?
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Zu wenige Links aufgelöst?

Beitragvon Orbiter » Mi Sep 01, 2010 1:34 pm

hm sehe ich das richtig dass du den aut-dom filter angemacht hast? das beschränkt den Crawl auf Domänen die bei der ersten Webseite angetroffen wurden.

weiterhin:
unter /IndexCreateParserErrors_p.html findest du den Grund, warum manche (viele) Seiten abgelehnt wurden. Hier sehe ich beim Versuch den Crawl nachzuvollziehen sehr viele POST-URLs. Manche Domänen werden so gehostet dass Seiten nur mit einem Query-Argument (alles was ein '?' in der URL hat) abgerufen werden. Speziell bei deinem Beispiel ist das tatsächlich so. In diesem Fall musst du beim Crawl-Start "Accept URLs with '?' / dynamic URLs:" anschalten. Das ist aber eine knifflige Sache weil das speziell bei Seiten die eine session-id in die URL packen zu (unendlich) vielen Doubletten führt. Also sollte man solche Crawls auch auf die Domäne beschränken.

Meine Empfehlung:
- auto-dom-filter: aus
- Must-Match Filter: Restrict to start domain
- Accept URLs with '?' / dynamic URLs: an
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron