Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon fubitch » Di Jun 16, 2009 9:22 am

Moin!

ich habe mir gestern mal Yacy (aktuelle stable .5962) gesaugt und gleich mal einen Testcrawl gestartet.

Nunja, die Maschine hier ist nicht gerade die flotteste (PIII 1Ghz per FSB auf 1,25Ghz getaktet :mrgreen:), indexiert anfangs beim starten noch halbwegs ordentlich zeigt aber so hohe Werte an wie 50-80PPM und versucht dann immer mehr parellel zu indexieren, bis er dann nur noch wenige PPM schafft.

Gestern Abend denn runtergefahren, und heute morgen wieder Yacy gestartet, macht auch schön weiter, und indexiert am anfang wieder flott (zumindest für so ne lahme maschine :mrgreen:), aber dann steigt der indexieren wert immer höhe bis es wieder kaum voran geht...

Der Max.-Wert beim indexieren war auf 40, aber er hat trotzdem so um die 60 versucht parallel zu indexieren... nun hab ich eben den max wert auf 10 gesetzt und da stand jetzt sogar
Code: Alles auswählen
Puffer     Größe        Max
Indexieren    71         10

und hat sich jetzt so bei 40-60 eingependelt und zeigt die meiste Zeit 0 PPM an :cry:

€dit: wobei er jetzt zwischendurch mal auf 20-40PPM hochgeht seitdem der auf Max. 10 ist

warum hält sich yacy nicht an diesen max.-wert?

MfG
fubitch
 
Beiträge: 13
Registriert: Di Jun 16, 2009 9:05 am

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon Phiber » Di Jun 16, 2009 9:36 am

Also da gibt es einige Punkte.


1. Die Crawl-Geschwindigkeit solltest via http://localhost:8080/WatchCrawler_p.html?autoforward= regeln und nicht über den Indexer. Es ist entscheidend wie schnell und woher er die Webseiten crawlt, und nicht wie er sie nachher indexiert.
Der Indexer ist im Moment auch nie das Nadelöhr sondern extrem schnell (siehe Surrogates). Die Puffergrösse vom Indexer hat auch nicht wirklich viel mit der Crawl-Geschwindigkeit zu tun, man würde eher einen Stau verursachen als den Crawl zu stabilisieren.

2. Es ist zu beachten, dass wenn man nur 1 einzige Domain crawlt, man nie über 120 ppm hinauskommt. Dies durch die forcierte Minimalzeit von 0.5s pro Domain.

3. Es gibt neben dem local Crawl (mit welchem du vorgibst was er wo und wie crawlt), auch noch den remote Crawl, bei welchem YaCy Crawl-Aufträge von anderen Peers ausführt. Dies ist Standardmässig auf 60 ppm. Diese 2 Crawlarten summieren sich natürlich dann in der totalen PPM.

4. Im Moment wird an der Crawl-Queue rumgebastelt. Sie ist nun zwar sehr sehr effizient und erlaubt es bei einer breiten Variation gar die ganze Internetleitung bis an den Anschlag zu belasten (d.h. auch 1000 ppm oder mehr), aber es gibt glaubs noch einige komische Phänomene beim Langzeitbetrieb.

Ps. Und eben es ist wichtig den Crawl (Bereitstellen der Daten, via Download aus dem Internet o.ä.) und das Indexieren (Verarbeitung der Rohdaten, parsen der Wörter usw.) zu unterscheiden. Auch sprachlich, damit nicht immer so Verwirrung ensteht. Hab damals auch etwas gebraucht bis ich das Grundkonzept von YaCy verstanden habe ;)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon fubitch » Di Jun 16, 2009 9:53 am

Moin,

mich wundert halt nur warum da ca. 40 Pages rot markiert sind und auf indexing stehen, dadrunter nochmal normal 10 die indexing sind und da drunter 10 die auf local crawling stehen. Und dann halt die PPM die die meiste Zeit auf 0 stehen, wenigstens zeigt er heute des öfteren 15-30 ppm an aber noch 10-20Sek fällt er wieder auf 0PPM für ne Weile.

Dadurch das da soviele rot sind bei indexing und das auch immer einige zeit dauert bis welche aus dem roten indexing verschwinden und paar neue nachrutschen, sieht das für einen Neuling wie mich so aus, als wenn der mit dem Indexen nicht hinterherkommt und nicht als wenn er zu langsam crawlt ;)

muss auch dazu sagen das das recht große seiten immer sind mit 30-150kb inhalt ;)

aber komischer weise geht das heute echt fixer (hab halt heute morgen nur gestartet und max. wert bei index auf 10 gesetzt), gestern lief das ca. von 11-17uhr (6h) und da hat er nur 3500 Seiten in der DB gehabt und heute hat er seit ca. 08:30 bis jetzt (10:50; 2h20m) schon 1700 neu dazu in der datenbank, bin gespannt ob er die 5200 die noch bei lokaler crawler drin stehen heute packt ;-)

MfG
fubitch
 
Beiträge: 13
Registriert: Di Jun 16, 2009 9:05 am

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon Orbiter » Di Jun 16, 2009 10:52 am

zum Thema 'parallel indexieren' das du oben ansprichst: die 40 bzw. 60 die du siehst werden natürlich nicht parallel indexiert, das ist nur die Größe der Queue vor dem Indexierer, der aber tatsächlich parallel arbeiten kann, aber nur mit der Anzahl der Cores die du hast skaliert.

Wenn 'rote Einträge' einfach stehen bleiben: es gibt, glaube ich, immer noch ein Problem mit dem pdf-Parser, der schon mal crasht und dann steht da ein roter Eintrag der aber quasi nicht mehr existiert und nicht weiter stört bis auf die Tatsache das er halt noch sichtbar ist. Hier müsste man schauen ob das so ein Anzeige-Bug ist oder ein anderes Problem. Sind die Einträge ggf. alle vom gleichen File-Typ?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon Phiber » Di Jun 16, 2009 11:33 am

Alter Thread zu Flashs mit Loop drin: viewtopic.php?f=6&t=1538&p=10743&hilit=flash#p10743

Irgendwie ist das Problem dann aber lange nicht mehr aufgetreten, vielleicht macht ja jetzt ein anderer Parser Probleme.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon fubitch » Di Jun 16, 2009 11:43 am

PDFs sollten das nicht sein, eigentlich nur HTML mit viel Text und teilweise paar Grafiken, ist halt ein Testcrawl auf http://de.wikipedia.org/wiki/ mit Linktiefe 2 der am Ende wohl knapp über 10000 Seiten in die DB befördern wird ;) 6500 sind schon drin und 4050 stehen noch bei lokaler crawler.

sind halt immer so ca. 40 rot, aber nach ner weile verschwinden welche aus der roten liste und die anderen rutschen nach ;)
fubitch
 
Beiträge: 13
Registriert: Di Jun 16, 2009 9:05 am

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon fubitch » Do Jun 18, 2009 8:51 am

Würde mal behaupten der Host hier ist zu lahm mit seinem PentiumIII 1,25Ghz, SD-RAM und uralt Platte^^

Gestern abend mal mit meinem AMD64 x2 1,8Ghz 4GB DDR2 lappi auch unter win nen testcrawl auf wikipedia gestartet und ging ab wie schmidts katze :mrgreen:
iwie anfangs so zwischen 100-120 PPM gehabt und nur maximal 2 in "normaler" Farbe bei "indexing" und ab und zu war ein "loader" zu sehen ;)

nur war er nach iwie 1000 seiten wieder langsamer gestern gegen 22uhr, so bei 30-40ppm, hab ihn eben wieder hochgefahren und yacy gestartet und ist jetzt so bei 60-75PPM ;)

auch die cpu auslastung sieht besser aus, der lappi läuft momentan auf akku (also runtergeregelt auf 2x 800mhz) hat nur 5-25% Last pro Core unter Vista, der PentiumIII rechner hier hatte zusammen mit FF3 immer 100% last, dabei war ff3 so bei 15-40% und YaCy bei 60-85% :mrgreen:


nacher mal gucken was der so auf meinem rootserver so bringt, hab auch schon ne domain gefunden, wird aber erst verraten wenns löppt aufm root :mrgreen:
könnte nur bissel knapp mit ram werden, der vserver hat iwie nur 768MB RAM und darauf läuft schon nen TS2, Battlefield2 und nen Crysis Wars Server, aber die Idlen meist nur vor sich hin ;)
fubitch
 
Beiträge: 13
Registriert: Di Jun 16, 2009 9:05 am

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon PCA42 » Do Jun 18, 2009 2:47 pm

fubitch hat geschrieben:wird aber erst verraten wenns löppt aufm root :mrgreen:
könnte nur bissel knapp mit ram werden, der vserver hat iwie nur 768MB RAM und darauf läuft schon nen TS2, Battlefield2 und nen Crysis Wars Server, aber die Idlen meist nur vor sich hin ;)

Ich glaub, da ist dein PIII dann schneller. Yacy auf einem VServer ist eine masochistische Nummer 8-)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon kellerlanplayer » Mo Jun 22, 2009 6:41 pm

Ja, berichte, wies dir ergangen ist.

Hab mir bei server4you mal den "leistungsstärksten" vserver 3 tage zum testen geholt :D
viel hat er nicht gebracht, ist regelmäßig zamgebrochen...
kellerlanplayer
 
Beiträge: 30
Registriert: Sa Mai 23, 2009 12:46 pm

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon fubitch » Di Jun 23, 2009 11:09 am

hm, hab nen "mittleren" von server4you, ich glaub das kann ich dann ja gleich sein lassen :?

yacy scheint ja echt ein ressourcenfresser zu sein^^

naja wollte den eh kündigen und nen richtigen root holen weil mit diesem vserver kernel von denen kannst ja nicht mal mit openvpn rumspielen...
fubitch
 
Beiträge: 13
Registriert: Di Jun 16, 2009 9:05 am

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon dulcedo » Mi Jun 24, 2009 5:58 am

fubitch hat geschrieben:yacy scheint ja echt ein ressourcenfresser zu sein^^


YaCy braucht RAM um performant arbeiten zu können, der Rest an Res langweilt sich. Wird RAM auf Platte ausgelagert muss er die Daten dorthin erst sehr langsam schreiben und anschliessend wieder lesen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon fubitch » Mi Jun 24, 2009 7:42 am

jo, genau das kann schwierig werden im moment mit 768MB RAM die der vserver hat :roll:
fubitch
 
Beiträge: 13
Registriert: Di Jun 16, 2009 9:05 am

Re: Indexieren dauert sehr lange / versucht zu viel gleichzeitig

Beitragvon Quix0r » Do Jun 25, 2009 3:36 pm

@fubitch: Hab hier 4 GB RAM in meiner Node (offline derzeit) und hab YaCy 2200 MB gegeben. HDD ist 80 GB und Linux erkennt sie als UDMA-133. Etwas lahm aber nur so als Vergleich zum VServer. (V=Virtual also keine echte Hardware).

Natürlich tun auch 8 GB und 6-7 GB Zuweisung YaCy nicht weh... :mrgreen:
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron