Verständnissproblem

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Verständnissproblem

Beitragvon kellerlanplayer » Fr Jul 10, 2009 10:53 pm

Ich hab da mal nen Verständnissproblem ;)

1. Wieso crawlt mein Peer so langsam?

1.1
Ich hab genug Seiten eingetragen, am Anfang crawlt er noch zwischen 1k und 2k Seiten/Minute und dann wird er immer langsamer.

1.2
Anderer Fall: Ich habe nur drinnen, dass er mir die Domain "www.youtube.com" abcrawlt. Und trotzdem gurkt er mit 20-80 PPM vor sich hin. Gibt es da eine Begrenzung, dass er nur X Seitenaufrufe pro Seite in der Minute machen kann, oder liegts an falschen Einstellungen?
Ich mein an fehlenden Links auf Youtube sollte ja nicht die Rede sein.

2. Crawls hängen sich auf
Wenn der Peer 2 Tage nicht neugestartet wurde, passiert es desöfteren, dass er einfach gar nicht mehr crawlt. Kann mir einer erklären wieso?

Alles auf der Version 0.900 unter Linux (debian)
kellerlanplayer
 
Beiträge: 30
Registriert: Sa Mai 23, 2009 12:46 pm

Re: Verständnissproblem

Beitragvon Low012 » Sa Jul 11, 2009 12:08 am

1k bis 2k Seiten/Minute sind extrem viel, YaCy schafft solche Geschwindigkeiten seit weniger als einem Jahr. Früher™ war ich froh, wenn mein Peer über 50 Seiten/Minute geschafft hat.

Zu 1.2: Es gibt wirklich so eine Bremse. Wenn YaCy so schnell von einer Domain Seiten abrufen würde, wie es nur geht, würden sich die Webmaster der entsprechenden Seiten beschweren oder noch wahrscheinlicher, YaCy einfach sperren. Daher wird nur eine bestimmte Anzahl von Seitenaufrufen pro Domain in einer bestimmten Zeit zugelassen. Wenn man YaCy trotzdem beschäftigen möchte, sollte man mehrer Crawls auf verschiedenen Domains parallel starten. Der Crawler kann dann immer schön auf verschiedene Domains zugreifen und hat genug zu tun, ohne eventuell einen Server zu sehr zu belasten.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Verständnissproblem

Beitragvon Quix0r » So Jul 12, 2009 2:12 pm

Versuch's mal mit buntesuche.de als Startpunkt und dann die sitemap.xml auswaehlen. Das wird deine Queues dichtmachen mit vielen URLs zum Crawlen.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste