Beobachtungen sciencenet

Ereignisse, Vorschläge und Aktionen

Beobachtungen sciencenet

Beitragvon liebel-lab » Di Jan 20, 2009 8:32 am

Guten Morgen,
ein kurzes feedback. aktuelles sciencenet SVN 5494

a) mir faellt schon seit einiger zeit auf, dass peers welche sehr busy sind (kit023..crawlt edu sites) oder peer kit026 (crawlt wissenschaftliche *.com sites)
fuer die anderen sciencenet peers öfters "verschwinden". soll heissen wenn man "network aufruft" von einem zufaellig peer sind busy peers oft "weg" ...
obwohl sie natuerlich fuer sich vor sich hin crawlen und local auch flott administriert werden koennen (also "normales" I/O usw)

b) kit026 (*.com sites): local crawls 40.000 ...arbeitet mit ~50 ppm vor sich hin...remote crawls (generiert für andere peers) 120.000..
obwohl mindestens 20 peers "frei" waeren werden keinerlei remote craels abgeholt...(localer RWI. ist mit 200.000 randvoll.
das scheint aber ein neues feature und normal zu sein, da die meisten peers volle RWIs haben....

-> ich habe den local crawl pausiert ...jetzt faellt der RWI ...laaaangsam , aber die remote crawl jobs werden immer noch nicht abgeholt...
(15 mins spaeter: remote jobs werden gaaaanz langsam abgeholt RWI bei 192.000/200.000)

c) die sciencennet peers werden 1x am tag mit einem script (stop yacy (im notfall kill yacy) -> reboot neu gestartet...
öfters kommt es vor dass gerade laufende crawl jobs (.zbs "www.mit.edu" mit Filter ".*edu/.*" zwar beim neustart wieder gestartet werden (bzw noch ausstehende weiter abgearbeitet werden), allerdings OHNE oft den filter (also die jobs werden mit ".*" abgearbeitet....
das hat natuerlich unschoene folgend fuer den sciencenet index...


..soweit die "news" aus Karlsruhe :-) wie immer ein grosses Dankeschoen an alle Aktiven ...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast