Lob 0.730/05734

Ereignisse, Vorschläge und Aktionen

Lob 0.730/05734

Beitragvon bluumi » Mo Mär 23, 2009 11:29 pm

Kurzum, diese Version ist seit längerem die erste Version welche seit über 3 Tagen ohne einen Restart auf 3 Peers tadellos durchläuft und noch Ansprechbar ist wia Webinterface. :!:
Kein OOM, keine DHT Transferloops, kein CrawlBuffer-voll. Kurum - DANKE!
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Lob 0.730/05734

Beitragvon RocketTurtle » Do Mär 26, 2009 10:33 pm

Ja - bin auch sehr zufrieden und ich weiß, das Lob manchmal sehr gut Tun kann: Also auch von mir ein Dankeschön :)
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: Lob 0.730/05734

Beitragvon PCA42 » Di Mai 05, 2009 10:07 pm

Ich häng mich mal hier ran. Die aktuellen Verbesserungen innerhalb meiner 14 Tage Urlaub lassen einen echt an Wunder glauben. ;)
Der Crawler hat extrem an Geschwindigkeit gewonnen. Hetzner muss mir jetzt dauernd Traffic-Mails schicken. 8-)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon dulcedo » Mi Mai 06, 2009 2:45 am

So ein gleichmässiges Crawlen habe ich bei YaCy noch _nie_ gesehen, das ist Version 5917, dafür von mir mal Lob.
Warum er nun grade bei 117 begrenzt weiss ich auch nicht, aber reicht vollkommen, und die Gesamtperformance für Webcrawl ist genial! Das läuft schon die ganze Nacht konstant so durch, allerdings hat er auch eine Anbindung ähnlich der im KIT.
Der Debian-Peer hat 3 GB Speicher, Crawl Delay 10ms und Loader bei 5. Die Delays der Prozesse ganz leicht priorisiert in Richtung Local-Crawl zulasten Remote. Es laufen 3 gut durchmischte Crawls.

@PCA42: wieviel braucht dein Server pro Tag wenn du ihn durchcrawlen lässt, In/Out? Den Proxy mal aussen vor gelassen.
Dateianhänge
PerformanceGraph6.png
PerformanceGraph6.png (15.53 KiB) 2975-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Lob 0.730/05734

Beitragvon PCA42 » Mi Mai 06, 2009 6:56 am

Proxy hab ich auf dem nicht laufen. Aber gestern waren es ca. 12 GB (10 in, 2 Out). Heute dürfte es mehr werden, den seit SVN 5926 läuft der noch besser. Die Änderungen aus SVN 5925 - Verbesserungen im Multitasking - bringen was. Ich schreib dann mal morgen noch was dazu.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon Orbiter » Mi Mai 06, 2009 7:05 am

de neuesten Multitasking-patches der letzten drei commits werden von normal konfigurierten Peers nicht ausgenutzt, dazu muss man in der yacy.conf den Wert indexer.threads hoch setzten, auf maximal der Anzahl der CPUs. Momentan läuft es bei mir bei der halben Anzahl der CPUs am besten. Der Wert für indexer.threads steht momentan per default auf 1 um keine Probleme zu machen, läuft aber seit tagen gut bei mir.

Die Begrenzung von 117 PPM kommt wohl durch den default crawl-delay von 500 Millisekunden. Ich komme beim Indexieren von Surrogaten ja auf über 10000 PPM. Oder mal einen Crawl starten der extrem in die Breite geht, sollte gleich auf 1000 gehen.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lob 0.730/05734

Beitragvon PCA42 » Mi Mai 06, 2009 7:22 am

Orbiter hat geschrieben:de neuesten Multitasking-patches der letzten drei commits werden von normal konfigurierten Peers nicht ausgenutzt.

Komisch. Ich hatte gestern viel Zeit um mit Yacy zu spielen. Hab dabei auch ein paar mal auf geblockte Threads geschaut, die unter Last fast immer vorhanden waren. Nach dem Update ist da nichts mehr gewesen. "indexer.threads" ist bei mir default 1. Vielleicht ein positiver Seiteneffekt?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon Orbiter » Mi Mai 06, 2009 7:44 am

ja kann sein das auch ein einzelner Thread davon profitiert wenn er seltener in Synchronized-Blöcke läuft. Es gibt aber ausser den Patches zur Concurrency im Indexer auch noch Verbesserungen beim caching der Wort-Hash Berechnung, das ist ja auch eine Core-Funktion die überall genutzt wird.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lob 0.730/05734

Beitragvon dulcedo » Mi Mai 06, 2009 7:46 am

Orbiter hat geschrieben:Die Begrenzung von 117 PPM kommt wohl durch den default crawl-delay von 500 Millisekunden. Ich komme beim Indexieren von Surrogaten ja auf über 10000 PPM. Oder mal einen Crawl starten der extrem in die Breite geht, sollte gleich auf 1000 gehen.

Minimum Access Time Delta (internet) habe ich schon von 500 auf 20 vermindert, erst seitedem crawlt er so gleichmässig. Aber immer noch maximal magische 117ppm. Er kann auch schneller das weiss ich, mich wundert diese Gleichmässigkeit, vorher immer wild schwankend.

PCA42, das ist ja voll im Rahmen, habe auch um die 10GB momentan, und will noch den Proxy nutzen. Gut 150GB kann ich, täglich...
So wird auch mal diese Trafficgrenze ein bischen greifbarer, in den Dimensionen schwer vorstellbar. Das reicht auf alle Fälle für einen finanzierbaren Proxy-Betrieb.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Lob 0.730/05734

Beitragvon Orbiter » Mi Mai 06, 2009 8:42 am

Die Minimum Access Time Delta ist hardcoded; du kannst sie zwar konfigurieren, aber die 500 höchstens überschreiten, nicht unterschreiten. Die Grenze gilt nicht für Intranet-Indexing.

Die 500 ms gelten aber nur pro Domäne, wie gesagt, wenn mehrere in der Queue sind skaliert das höher.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lob 0.730/05734

Beitragvon dulcedo » Mi Mai 06, 2009 9:19 am

So sieht exakt die selbe Konfiguration auf vergleichbarer Maschine an einer instabile Home-Leitung aus. Das liegt rein an der Stabilität (=Erreichbarkeit) schnell genug wäre sie.
Die 3 Crawls gehen u.a. über ein News-Portal, verzeweigen also in Tiefe 4 auf sehr viele Domains, deshalb verstehe ich nicht wo es hängt.
Dateianhänge
PerformanceGraph7.png
PerformanceGraph7.png (14.54 KiB) 2906-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Lob 0.770/0592x

Beitragvon bluumi » Mi Mai 06, 2009 12:03 pm

Das einzige "traurige" an der Geschwindigkeit ist, dass ich nun nach rund 4.5 Monaten wohl zum ersten Mal wieder einen neuen CrawlJob anwerfen muss :)
7 Monate hat nun mein CrawlJob über eine ".ch" Linkliste auf tiefe 8 gedauert. Und langsam scheint er zum Ende zu kommen ;)

Ist "indexer.threads" ein Wert welcher sofort Wirkung zeigt, oder erst nach Reboot?
Zuletzt geändert von bluumi am Mi Mai 06, 2009 11:17 pm, insgesamt 1-mal geändert.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Lob 0.730/05734

Beitragvon Orbiter » Mi Mai 06, 2009 12:07 pm

erst nach reboot. Bei < 1000 PPM zeigt das aber wohl keine Wirkung, das beschleunigt erst wenn der Crawler viel schneller Daten liefert dann auf 10000 PPM. 1000 PPM schafft auch ein indexing-Thread.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lob 0.730/05734

Beitragvon PCA42 » Do Mai 07, 2009 7:04 am

So, wie erwartet ist der Durchsatz von Yacy gestiegen. Der Traffic lag jetzt bei 16,5 GB (14,3 Out, 2,2, In). Ist also eine Steigerung um 37,5% zum Vortag.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon bluumi » Do Mai 07, 2009 7:12 pm

Orbiter hat geschrieben:erst nach reboot. 1000 PPM schafft auch ein indexing-Thread.

Ok, dann werde ich das wohl erst mit dem Intranet testen können. Und wenn nun meine Peers einige Tage ohne Reboot (im Internet) aushalten, rückt auch das in die Möglichkeiten zurück.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Lob 0.730/05734

Beitragvon PCA42 » Mi Mai 20, 2009 5:35 pm

Positives Feedback zum Crawler: Ich hab jetzt die SVN5962 seit 2d 12h laufen und dabei 40 GB durch den Crawler geschoben. Ein Ende ist derzeit nicht in Sicht. Alle 4-5 Stunden entsteht eine "finale" Blob-Datei mit 1 GB. Der läuft und läuft und läuft..... :D
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon Vega » So Jun 14, 2009 12:10 pm

Nachdem ich im Bug Forum mich über die Blacklist Funktion ausgelassen habe an dieser Stelle ein Lob für die Version 0.83006015, damit hat mein Peer eine "Uptime" von 10 Tagen erreicht - ohne Probleme (inkl. Einbindung in Metager.de) :mrgreen:

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Lob 0.730/05734

Beitragvon PCA42 » Do Jun 18, 2009 9:12 pm

Ich muss hier auch nochmal ein Lob loswerden. Yacy ist auf dem richtigen Weg. Zum Vergleich auch nochmal ein kleines Bild von einem Internet-Crawl. Nicht unter 1000 PPM. Vergleicht das mal mit dem ein Monat altem Bild oben von Dulcedo! :mrgreen:

crawl.gif
crawl.gif (16.78 KiB) 2642-mal betrachtet
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon dulcedo » Fr Jun 19, 2009 7:03 am

Solangsam wird es wirklich Zeit für mehr Peers=mehr Interessen=mehr crawl-Startpunkte.
Ich bin zur Zeit irritiert wenn ich früh morgens die Peers ideln sehe und zuerst das log prüfe, dabei hat er nur nichts zu tun, auch remote nicht.

Es gibt schlimmeres ;-)
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Lob 0.730/05734

Beitragvon Quix0r » Fr Jun 19, 2009 9:58 am

Ich hab hier schon einen zweiten in Gange.

Auffälligkeiten:
+ Anfangs gute Crawl-Performance (gut für meine vorherigen Crawls, 200-300 PPM waren mal drinne)
+ Weiterhin gut erreichbares Admin-Interface - sogar per öffentlicher IP
- Rapider Abbau der RWIs (ist derzeit auf <500 Wörter runter) (siehe obriger Link)
- Viele Transfers zu anderen Nodes, aber "kaum" noch Crawls (unter 100 PPM), obwohl die Queues voll sind (99.000 im Local und 518.000 im Limit Crawler Queue)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Lob 0.730/05734

Beitragvon dulcedo » Fr Jun 19, 2009 10:05 am

Quix0r hat geschrieben:+ Weiterhin gut erreichbares Admin-Interface - sogar per öffentlicher IP

Warum sogar? Wenn es da einen Unterschied gibt dann liegt das an deiner Anbindung. Zu hohe Latenz oder zu wenig Verbindungen durch Router/Modem möglich.
- Rapider Abbau der RWIs (ist derzeit auf <500 Wörter runter) (siehe obriger Link)

Das dürfte normal sein, also die niedrige Anzahl. Ich versuche es jetzt durch die feststehende Anzahl der URLs zu vergleichen: Ein Haufen Tageszeitungen mit X Artikeln und Y Worten, ich habe noch nicht nachgezählt aber das Verhältnis dürfte ähnlich sein wie jetzt gerade URLs/Worte. Das erkennt man wenn man einen Peer frisch aufbaut dann sammelt er sehr schnell alle vorkommenden Worte, danach überhohlen langsam die URLs.
Was ich persönlich störend empfinde ist der Platzbedarf der blobs, für 10mio wörter beispielsweise 70GB. Nicht wegen Festplattenplatz aber er muss es lesen und vorallem schreiben.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Lob 0.730/05734

Beitragvon Quix0r » Fr Jun 19, 2009 10:13 am

70GB? Oha, dann ist meine "kleine" Festplatte bald voll. Hab eine 40 GB USB-Platte genommen, da ich keine andere mehr habe.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Lob 0.730/05734

Beitragvon dulcedo » Fr Jun 19, 2009 10:18 am

Ich darf nicht solange editieren...
40 ist definitv zu wenig, einen 0.7 peer habe ich 3 monate laufen lassen, DHT und kleine Crawls, dann waren 60 voll. Ab 80 macht es Sinn.

+ Die Geschwindigkeit auf langsamen Maschinen: Auf dem Atom für den Linuxtag laufen mit 2GB grade 2 Peers zum Daten sammeln: der eine (0.85) mit 500, der andere (0.80) mit 200ppm.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Lob 0.730/05734

Beitragvon bluumi » Fr Jun 19, 2009 12:39 pm

dulcedo hat geschrieben:..irritiert.. die Peers ideln

Oh, mann... ich Tepp-Ich .. das erklährt wieso meine auch ideln :)
Da gibt es nur eines, ich werfe 5 Jobs an, welche ein paar 100k seiten indexieren.. (alle Hoch- / Techniker / Fachhochschulen der .CH besuchen) ... ich hoffe das wird ein paar Seiten lang dauern :geek:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Lob 0.730/05734

Beitragvon PCA42 » Fr Jun 19, 2009 2:59 pm

Tipp: Kleine Festplatten lohnen sich bei leistungsstarken Crawlern nicht wirklich. Für die heimischen Server würde ich deshalb schon größere Festplatten wählen. Auf dem Root-Server hab ich derzeit 193GB Daten. Für die letzten 50 GB hab ich 8 Tage benötigt, für die nächsten 50 werden es sicher weniger sein.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Lob 0.730/05734

Beitragvon Quix0r » Fr Jun 19, 2009 6:58 pm

200 MB RAM sind vollgelaufen, woher auch immer? Wieso kann man bei fast vollem RAM nicht Teile auslagern, so wie ein anderes Mitglied das vorgeschlagen hat. Oder gar nicht erst im RAM vorhalten, sondern so eine Art Verzeichnis:
Anfangsbuchstaben A liegt auf den Blobs X,Y und Z verteilt, B auf Y, C auf X usw.

Dies wuerde nur bei knappen RAM einspringen (Strategiewechsel), wer viel RAM zugewiesen hat, da passiert das halt nicht. Oder ab 95% Auslastung des RAMs?

Weil, wer kauft sicht permanent RAM nach, "nur" im YaCy zu betreiben? Wohl kaum einer. Und mit dem Vorschlag koenntet ihr sogar User kriegen, die kleine Systeme haben und keine 4GB RAM Systeme (was noch immer nicht der Standart ist, das ist eher zwischen 512MB und 1,5GB durchschnittlich).
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron