Sehr langsames indizieren

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Sehr langsames indizieren

Beitragvon iqualfragile » Do Jan 19, 2012 9:07 pm

Tag
bei mir indiziert yacy mit einer geschwindigkeit von ca 3 seiten pro minute (wenns hochkommt sind es 6)

das wäre definitv nicht nötig da sowohl die festplatte(nettes raidkonstrukt) alsauch die cpu so wie der arbeitspeicher und die netzwerkverbindung sich unterfordert vorkommen

woran kann es sonst liegen? an den einstellungen hab ich eigentlich nur in richtung verkürzter wartezeiten und mehr ram geändert

hier mal was Crawler_p.html sagt:

Code: Alles auswählen
Crawler Puffer

Nächste Aktualisierung in Sekunden. empty  Hier gibt es eine Tabelle mit Latenz- und Zugriffszeiten
Puffer    Größe         Max
Lokaler Crawler    757    Pause this queue    uneingeschränkt
Limit Crawler    0    Pause this queue    uneingeschränkt
Remote Crawler    0    Pause this queue    uneingeschränkt
No-Load Crawler    0    Pause this queue    uneingeschränkt
Lader    1         70
Geschwindigkeit
   PPM    
Datenbank    Einträge
Seiten (URLs)    5.068.727
RWIs (Wörter)    4.020.443
Indikator    Stufe
PPM (Seiten pro Minute)    6    
Traffic (Crawler)    91.06 MB    
RWI RAM (Wörter Zwischenspeicher)    1.967/80.000    

Crawler Puffer:
Puffer    Profil    Auftraggeber    Tiefe    Änderungsdatum    Linktitel    URL    Größe    Löschen
loader   YDigEQp1clTZ   xx   11         http://www.lyricsmania.com/the_game_played_right_lyrics_emarosa.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/i_lift_my_hands_lyrics_dewayne_woods.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/romans_revenge_20_lyrics_nicki_minaj.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/steppin_out_lyrics_kaskade.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/correct.php?id=772099      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/dewayne_woods_lyrics.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/come_back_and_let_me_in_going_down_the_wrong_road_lyr...      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/asl_lyrics_i_set_my_friends_on_fire.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/choke_lyrics_mychildren_mybride.html      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/redir.php?id=7&artist=DeWayne%20Woods&song=Let%20Go      
local crawler   YDigEQp1clTZ   xx   11   2012/01/19      http://www.lyricsmania.com/you_shall_reap_lyrics_dewayne_woods.html



und hier was der panikbefehl aus dem wiki beisteuert:
Code: Alles auswählen
I 2012/01/19 21:06:46 Rejected URL http://my.lyricsmania.com/playlist/add/788812.html - url does not match must-match filter
I 2012/01/19 21:06:46 Rejected URL http://www.parolesmania.com/paroles_david_archuleta_43487.html - url does not match must-match filter
I 2012/01/19 21:06:46 YACY_SEARCH CRAWL: ADDED 206 LINKS FROM http://www.lyricsmania.com/when_you_believe_lyrics_david_archuleta.html, STACKING TIME = 7, PARSING TIME = 8
D 2012/01/19 21:06:46 YACY_SEARCH Condensing for 'http://www.lyricsmania.com/when_you_believe_lyrics_david_archuleta.html'
I 2012/01/19 21:06:46 STACKCRAWL RE-CRAWL of URL 'http://www.lyricsmania.com/links.html': this url was crawled 26 days ago.
W 2012/01/19 21:06:46 STACKCRAWL CrawlStacker.stackCrawl of URL http://www.lyricsmania.com/links.html - not pushed: double occurrence in double_push_check
I 2012/01/19 21:06:46 YACY_SEARCH Excluded 0 words in URL http://www.lyricsmania.com/when_you_believe_lyrics_david_archuleta.html
I 2012/01/19 21:06:46 Rejected URL http://174.122.222.154/~lyricsad/openads/www/delivery/ck.php?n=a266f82e&cb=98189474 - url does not match must-match filter
I 2012/01/19 21:06:46 Rejected URL http://www.lyricsmania.com/when_you_believe_lyrics_david_archuleta.html - double in: LURL-DB
I 2012/01/19 21:06:46 STACKCRAWL RE-CRAWL of URL 'http://www.lyricsmania.com/home_lyrics_edward_sharpe_and_the_magnetic_zeros.html': this url was crawled 26 days ago.
W 2012/01/19 21:06:46 STACKCRAWL CrawlStacker.stackCrawl of URL http://www.lyricsmania.com/home_lyrics_edward_sharpe_and_the_magnetic_zeros.html - not pushed: double occurrence in double_push_check
I 2012/01/19 21:06:46 STACKCRAWL URL 'http://www.lyricsmania.com/vera_reissm%C3%BCller_lyrics.html' is double registered in 'errors'. Stack processing time:
I 2012/01/19 21:06:46 YACY_SEARCH *Indexed 545 words in URL http://www.lyricsmania.com/when_you_believe_lyrics_david_archuleta.html [9UujDQp1clTZ]
   Description:  David Archuleta - When You Believe Lyrics
   MimeType: text/html | Charset: null | Size: 5784 bytes | Anchors: 190
   LinkStorageTime: 0 ms | indexStorageTime: 2 ms
I 2012/01/19 21:06:46 STACKCRAWL URL 'http://www.lyricsmania.com/drake_lyrics.html' is double registered in 'errors'. Stack processing time:
I 2012/01/19 21:06:46 STACKCRAWL URL 'http://www.lyricsmania.com/freko_amenaza_lyrics.html' is double registered in 'errors'. Stack processing time:
D 2012/01/19 21:06:46 YACY_SEARCH Cleaning Incoming News, 554 entries on stack
I 2012/01/19 21:06:46 YACY rulebasedUpdateInfo: not an automatic update selected
I 2012/01/19 21:06:46 RESOURCE OBSERVER resources ok
I 2012/01/19 21:06:46 BALANCER waiting for www.lyricsmania.com: 3 seconds remaining...
I 2012/01/19 21:06:47 BALANCER waiting for www.lyricsmania.com: 2 seconds remaining...
I 2012/01/19 21:06:48 BALANCER waiting for www.lyricsmania.com: 1 seconds remaining...
I 2012/01/19 21:06:49 BALANCER forcing crawl-delay of 6419 milliseconds for www.lyricsmania.com: minimumDelta = 30, timeSinceLastAccess = 3, flux = 0, robots.delay = 0, host.average = 3211, top.size() = 0, delayed.size() = 0, domainStacks.size() = 1, domainStacksInitSize = 1
I 2012/01/19 21:06:50 BALANCER waiting for www.lyricsmania.com: 6 seconds remaining...
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
0  0 606984 295108 492024 5146332    0    0    41    63    0    0  2  1 97  1  0   
Linux 3.1.2-1.fc16.x86_64 (xx)    19.01.2012    _x86_64_   (8 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1,61    0,53    0,62    0,51    0,00   96,73

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda              10,09        47,71       305,72  183203874 1173855112
sdb               5,08       282,23       201,83 1083668911  774949124
dm-0             15,12        47,66       305,52  183000658 1173091400
dm-1              0,06         0,05         0,20     201396     763712
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm

Re: Sehr langsames indizieren

Beitragvon iqualfragile » Do Jan 19, 2012 10:06 pm

ok: ich habe einfachmal einen unbeschränkten crawl gestartet der fröhlich durch das internet spaziert
damit bin ich jetzt auf deutlich höhere zahlen gekommen, die dennoch nicht allzuhoch sind, sollte dieses pausemachen nicht nur gelten wenn man von einem host herunterläd?
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm

Re: Sehr langsames indizieren

Beitragvon Quix0r » Fr Jan 20, 2012 11:21 pm

Ich kann es gerne mal aus meiner Erfahrung heraus beschreiben:

1) YaCy (d)DoS-ed keine server, dass heisst im Klartext, dass maximal 2 Seiten pro Sekunde pro Domain gecrawlt werden, um den Server nicht zu belasten. Dann kommt noch die delay-Zeit aus der robots.txt dazu, die den Balancer zu den "forced-delay" Zeilen veranlaesst, plus die Reaktionszeit des Servers. Falls also mal ein Server lahmen sollte, soll YaCy den Server nicht noch weiter belasten.

2) Der Balancer-Code ist zwar schon ueberarbeitet (er nimmt nur die ersten/letzten X Eintraege), aber noch nicht 100% perfekt, da z.B. die besagten X Eintraege alle von der gleichen Domain sein koennen. Dann tritt Regel 1) in Kraft: Nicht (d)DoS-en. Das d (fuer Distributed) steht fuer Remote-Crawls, die andere Peers fuer deinen Peer erledigen und das Ergebnis (Crawl-Receipt) an deinen Peer wieder senden. Dabei kannst du bestimmen, ob dies passieren soll ("allow remote crawls" oder so, muss an sein)

Bei 1) wird Orbiter (und ich auch) nichts aendern, da sonst YaCy flux auf der Blacklist ist und das waere fuer das Projekt fatal, bei 2) ueberlege ich mir gerade ein neues "smartes" System. :) Noch sind es aber nur Ueberlegungen und kein Code.

Achso, hinzu kommt noch ein "Flux"-Wert, und alles zusammen darf nicht 60 Sekunden Wartezeit ueberschreiten. Hier mal ein Extrem-Beispiel:
http://acriticalear.info/robots.txt
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Sehr langsames indizieren

Beitragvon iqualfragile » Sa Jan 21, 2012 8:17 pm

nicht das ich da was durcheinander kriege:

die ladewarteschlange war ja leer also gibt es keinen zugriff auf irgendwelche fremdserver oder?

die crawlwarteschlange hingegen gut gefüllt dh viele dokumente müssen noch analysiert werden
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm

Re: Sehr langsames indizieren

Beitragvon Lotus » So Jan 22, 2012 1:13 pm

Ja, die Lade-Warteschlange ist die unmittelbar aktive, von der aus dem Web geladen wird.
Die Lade-Warteschlange wird aus der Crawl-Warteschlange durch einen Filter gefüttert.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sehr langsames indizieren

Beitragvon iqualfragile » So Jan 22, 2012 10:45 pm

ah ok und dieser sagt wahrscheinlich nein, von der domain hatte ich doch grad schon was
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste