Hinweise für schnelles Crawlen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Hinweise für schnelles Crawlen

Beitragvon PCA42 » So Jul 12, 2009 2:50 pm

Da einige wie es aussieht sehr schnell sehr viel Crawlen wollen, gebe ich mal meine Einstellungen weiter. Mein Peer "yacy-suche_de" (Impressum mit Hardwareangaben) läuft damit wie geschmiert.

Grundsätzlich müssen natürlich die Rahmenbedingungen stimmen. Ein 486DX66 an einem 56K Modem wird keine 10.000 ppm schaffen. Auch sollten die Crawls über viele Domains verteilt laufen. Nur so wird sichergestellt, das die interne Sperre (nur alle 500ms eine Seite pro Domain =120 ppm) oder eine entsprechende robots.txt nicht ausbremsen.

Erster Anlaufpunkt sind die "Performanceeinstellungen für Puffer und Prozesse" (http://localhost:8080/PerformanceQueues_p.html). Im Abschnitt "Übersicht geplanter Aufgaben und Wartezeiteinstellungen" unter "Local Crawl" die Zeitwerte auf 1.000 ms und 15 ms. Das entspricht maximal 4.000 ppm. Die Werte unter "Indexing" auf 1.000 ms und 1 ms. Damit werden die Dokumente dann schnell durch den Indexer geschoben. Im Abschnitt "Cache Einstellungen" sollte der Wert für den Cache oberhalb von 100.000 liegen. Damit wird sichergestellt, dass der Cache nicht zu oft geleert wird. Aber auch nich übertreiben, denn die Daten benötigen Arbeitsspeicher. Zum Abschluss noch unter "Threadpool Einstellungen" den "Crawler Pool" auf 100. Damit können maximal 100 Anforderungen gleichzeitig geladen werden. Hängt sich euer DSL-Router auf, reduziert diesen Wert.

Die Zahl der Indexer-Slots habe ich auf 200 erhöht. Das geht leider nur direkt über "Erweitertes Verhalten" (http://localhost:8080/ConfigProperties_p.html). Dort die Variable "indexer.slots" auf 200.

Alle Änderungen wirken sich direkt aus. Es ist kein Neustart notwendig.

Was ich (derzeit) nicht empfehlen würde, sind Remote-Crawls. Einerseits sind die von anderen Peers gelieferten URLs oft nicht gut durchmischt. Das bremst. Auch wenn man selbst Remote-Crawls anbietet, leidet die Geschwindigkeit.

Schlusswort: Mit diesen Einstellungen wird Yacy schneller Daten heranschaffen, als ihr Arbeitsspeicher und Festplattenplatz bereitstellen könnt . Derzeit entstehen bei mir so 10 GB Daten am Tag. Überlegt euch also vorher, wie lange ihr das durchhaltet. Hier mal der Auszug von yacystats für meinen Peer: http://www.yacystats.de/peer/fjQ64SkF4w__,month.html. Die niedrigen Werte sind selbst verschuldet (Spielen mit den Blob-Größen bzw. Umzug auf neuen Server).
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Hinweise für schnelles Crawlen

Beitragvon Nathan » So Jul 12, 2009 4:21 pm

Vielleicht könnte man sowas auch ins Wiki werfen? ;)
Nathan
 
Beiträge: 38
Registriert: Mi Jun 27, 2007 6:26 pm

Re: Hinweise für schnelles Crawlen

Beitragvon Quix0r » Mi Jul 15, 2009 1:33 am

Hab das mal testweise uebernommen. Mal schauen, wie es sich macht. :)

Hat bei mir YaCy gekillt. :( Es wurde einfach die yacy00.log nicht mehr nach einer Rotation angelegt. Ich vermute hier einen Bug, der bei zu schnellem Logbuchschreibens ensteht. Hier meine yacy.conf, wie ich sie benutze.

Hab .level=OFF ganz oben in der yacy.logging gesetzt.

Edit: Die ist komplett veraltet und sollte geloescht werden.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron