Local indexing beschleunigen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Local indexing beschleunigen

Beitragvon Tommek » Mi Okt 17, 2012 10:59 am

Moin,

bei mir läuft der lokale Crawl puffer voll, wie bekomme ich mehr threads dazu zu indizieren?

Ich habe schon einige Einstellungen vorgenommen:

Code: Alles auswählen
50_localcrawl_busysleep: 0
50_localcrawl_idlesleep: 100
50_localcrawl_isPaused: false
crawler.MaxActiveThreads: 200
javastart_Xms: Xms5000m
javastart_Xmx: Xmx5000m
wordCacheMaxCount: 200000

MEin Rechner kann noch deutlich mehr load und IO vertragen, wie bekomme ich mehr indexierer?
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am

Re: Local indexing beschleunigen

Beitragvon Orbiter » Mi Okt 17, 2012 12:04 pm

Der Crawler macht so schnell wie er darf (entsprechend robots.txt des hosts) und ausserdem maximal 2 Seiten pro host. Das lässt sich durch Konfiguration nicht ändern und ist auch so gewollt. Ein Performanceproblem gibt es an dieser Stelle nicht. Ein 'langsam' arbeitender Crawler ist insofern gewollt.

Dass es hier kein Performanceproblem gibt, sieht man beim Intranetcrawlen, wo keine beabsichtigte Limitierung eingebaut ist: da sind 30000 Seiten pro Minute möglich.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Local indexing beschleunigen

Beitragvon Tommek » Mi Okt 17, 2012 12:13 pm

Ok, dann bezieht sich der Puffer auf noch runterzuladende Inhalte?
Ich dachte es wäre getrennt. Webseiten herunterladen, puffern, indexieren.

Der Puffer wird also immer steigen, egal was man macht.
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am

Re: Local indexing beschleunigen

Beitragvon Orbiter » Mi Okt 17, 2012 12:42 pm

Einen 'Puffer' gibts zwar, das wird aber immer sofort abgearbeitet. Was hier gemeint ist, ist die Queue. Die nimmt aber keinen großartigen Platz im Speicher ein, das sind nur URL-Listen.
Wo genau steht denn welche Zahl, von der du annimmst dass es der 'Puffer' sei?
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Local indexing beschleunigen

Beitragvon Tommek » Mi Okt 17, 2012 1:32 pm

Code: Alles auswählen
Puffer    Größe    Pause/Resume
Lokaler Crawler    171.770    Pause this queue
Limit Crawler    0    Pause this queue
Remote Crawler    0    Pause this queue
No-Load Crawler    0    Pause this queue
Lader (200)    4    

Bei der Crawlerüberwachung.
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am

Re: Local indexing beschleunigen

Beitragvon Orbiter » Mi Okt 17, 2012 1:36 pm

aha, das ist kein Puffer sondern die Queue. Sind die URLs darin normale Webadressen oder aus dem Intranet? (wegen topic 'local indexing')
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Local indexing beschleunigen

Beitragvon Tommek » Mi Okt 17, 2012 2:42 pm

Moin,

die sind aus dem Internet. Das Topic "LOCAL INDEXING" habe ich gewählt, weil in der Logansicht der Adminkonsole "LOCAL INDEXING" steht wenn er Webseiten indiziert.
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am

Re: Local indexing beschleunigen

Beitragvon Orbiter » Mi Okt 17, 2012 5:51 pm

hm, hab das mal so genannt um es vom remote indexing zu unterscheiden, offenbar muss ich nochmal über die Benennung nachdenken.

Also das sollte mit mindestens 120ppm laufen (für nur einen host, bei mehreren eben mehr), wenn nicht sollte im Log was über extra sleeps stehen.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Local indexing beschleunigen

Beitragvon Tommek » Mi Okt 17, 2012 10:59 pm

Das verstehe ich dann nicht.

Ich habe ganz wenige sleeps, da ich unmengen verschiedener URLs crawle. Komme trotzdem nur auf durchschnittlich 130 ppms.
Das ganze startet mit 600ppms und nach einigen Stunden Laufzeit wird es weniger und weniger...

IO und CPU sind lange nicht ausgelastet.

Code: Alles auswählen
Thread Pool    max. aktiv    derzeit aktiv
Crawler Pool       4


Ist das nicht auch seltsam? Viel mehr als 4 werden es höchst selten.
Tommek
 
Beiträge: 18
Registriert: Fr Mär 26, 2010 10:50 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron