Crawler beschleunigen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawler beschleunigen

Beitragvon Tommek » Do Mai 26, 2011 7:54 pm

Moin,

wie kann ich den Crawler beschleunigen? Manchmal geht er mit 900PPM ab aber meist dümpelt er bei 6 Seiten?
Ich habe eine relativ flotte Kiste hier, die CPU wird überhaupt nicht belastet. Die Festplatten laufen in einem Raid6 und werden kaum belastet.

Was kann man da noch einstellen? Kann man überhaupt etwas einstellen?

Meine Puffer sehen derzeit so aus:
Puffer Größe
Lokaler Crawler 21.132
Limit Crawler 13.966.789

Ich will die abarbeiten, gebt mir mehr Daten ;)
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am

Re: Crawler beschleunigen

Beitragvon Tommek » Fr Mai 27, 2011 4:34 pm

Öhm gibt es keine "Suchmaschinenoptimierung" in der Hinsicht? Es kann doch nicht sein, dass ich ewig warten muss obwohl 98% der Maschine nicht benutzt werden?
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am

Re: Crawler beschleunigen

Beitragvon Orbiter » Fr Mai 27, 2011 6:23 pm

einzelne Domänen werden gebremst geladen, nur 2 Seiten pro Sekunde. Hast du nur eine Domände? Hast du crawl delay Meldungen im Log?
Ohne die eingebaute Bremse läd der nämlich 1500 Seiten pro Minute (aus dem Web) und mehr. Bei Dumps 60000 Seiten pro Minute.
Ausserdem wartet der mindestens 2 mal so lange wie die Seite zum Laden braucht. Das kann die 6 PPM ausmachen. Wenn du dann schneller läds dann DoS du das.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler beschleunigen

Beitragvon bbtuxi » Sa Mai 28, 2011 4:58 pm

Hab da eine Idee, bei mir in den Logs tauchen auch sehr oft die "Balancer waiting" Meldungen auf.
Aber die Crawler Warteschlange ist ewig lang. Warum hier nicht einfach per Zufall irgendeine URL raussuchen und crawlen? Dann müßte doch der Crawler fast gar keine URLS der gleichen Domain drin haben. Und somit entfällt bei einer sehr langen Warteschlage die Zwangspause...?
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Crawler beschleunigen

Beitragvon Orbiter » Do Nov 01, 2012 11:42 am

tja da krame ich mal den alten Topic wieder raus..
(nicht nur) aufgrund eines Kunden habe ich den Crawler die letzten Tage schwer überarbeitet. Der Algorithmus ist nun so:
- lade (bis zu 100000) URLs aus dem Stack und sortiere sie in domain-Listen
- von den Domain-Listen mache eine Prognose welche Domains man ohne Bremse laden darf und lege je eine URL in eine -> zero-waiting Liste
- von der zero-waiting-Liste nehme nur ein drittel welches die meisten URLs haben (dadurch entladen sich die großen Listen früher ohne warten zu müssen)
- die zero-waiting-Liste wird persistiert und geleert
- wenn keine zero-waiting-Liste da ist bzw. nicht gefüllt werden kann, nehme die URL mit der besten Warteprognose.

Warteprognose heisst hier: wie lange muss man warten wenn man weiss was in der Robots.txt steht, ohne dass man die geladen hat.
In der Vergangenheit war diese Prognose oft falsch, weil es einige Hosts mit hohen crawl-delays gibt. Die haben dann alles versaut. Jetzt wird daher nebenläufig jede robots.txt geladen, sobald man weiss das man die mal brauchen kann, und die Warteprognose kann daher die robots.txt mit berücksichtigen, was das ganze schneller machen sollte...
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler beschleunigen

Beitragvon bbtuxi » Do Nov 01, 2012 6:20 pm

Klingt alles sehr gut:) Mal schauen wie Yacy sich verhält:)


grüße
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Crawler beschleunigen

Beitragvon schmekl » Sa Nov 03, 2012 3:33 pm

Hi,

hast du schon mal die robots.txt überprüft - in vielen fällen ist das das Problem.

Gruß

Johann
schmekl
 
Beiträge: 1
Registriert: Sa Nov 03, 2012 3:24 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste