Speed svn6344 :-)

Ereignisse, Vorschläge und Aktionen

Speed svn6344 :-)

Beitragvon liebel-lab » Mo Sep 28, 2009 4:03 pm

...Donnerwetter also ab svn8344 raucht es hier..
sciencenet200909.png
sciencenet200909.png (146.7 KiB) 3437-mal betrachtet
.:-) ...ein Orbiter sozusagen.

anbei ein screensh. beim crawlen der deutschen Universitäten aus dem sciencenet...
Merci :-)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Speed svn6344 :-)

Beitragvon Seitenreiter » Mo Sep 28, 2009 6:03 pm

Alter SPalter, wenn das so abgeht und die Sache stabil wird kriege ich meinen Prof auf davon überzeugt :-)
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Speed svn6344 :-)

Beitragvon dulcedo » Mo Sep 28, 2009 6:31 pm

Wenn er hier 6 Stunden am Stück läuft sind das bis zu 50GB Daten (Media=true), man kann ihn noch ein bischen konstanter tunen, 900ppm sind das dann auf einem Server wie bei dir. Die Crawls müssen allerdings viele unterschiedliche Domains ansteuern.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon Lotus » Mo Sep 28, 2009 6:51 pm

6350 ist da interessanterweise unbeteiligt. Ob es 6341 getan hat?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Speed svn6344 :-)

Beitragvon dulcedo » Mo Sep 28, 2009 8:06 pm

Das war schon früher so flott, hängt aber sehr stark davon ab was man crawlt.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon dulcedo » Mi Okt 07, 2009 12:53 pm

Fortsetzung folgt, hoffentlich. Der Peer hat gestern Abend bei Null angefangen, mit einem sinnvollen crawl Tiefe 7 und bis auf den RWI-Puffer Standardeinstellungen auf einem Core2Duo, wenn der so weiter macht braucht er die 1,5GB JVM bald vollständig. Und ist damit ein verdammt gutes Stück Software.
Last hat er nichtmal 50%, ich bin noch nicht draufgekommen was nun die ppm begrenzt, WAN kann es nicht sein.
Dateianhänge
091-091007.jpg
091-091007.jpg (259.25 KiB) 3327-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon Orbiter » Mi Okt 07, 2009 2:15 pm

hab gestern Standardeinstellungen in yacy.init geändert, die ich empfehlen würde:
- kleiner delay zwischen den local crawls, also nicht 0 sondern 10 oder 20 ms und
- http client sessions pool stark vergrößern (nun 200)

Grund dafür war, dass wohl nun mein Router wegen den vielen Requests bremst, und die Sessions nicht mehr schnell genug zu macht. Wenn man die Anzahl der Sessions erhöht, ist der Organisationsaufwand zwar höher, aber dafür geht der Crawler nicht in einen Idle state und macht die entsprechende Idle Pause. Die kleine Pause zwischen den Aufrufen soll ein DOS auf den eigenen Router verhindern.

Das hat bei mir gut angezogen. Bei schlechtem Crawling-Speed auch mal ausprobieren, ob man ganz normal mit dem Webbrowser noch eine gute Browsingspeed hat; wenn nicht hat wohl der Router ein Problem mit den vielen Requests.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Speed svn6344 :-)

Beitragvon dulcedo » Mo Okt 12, 2009 4:13 am

Das sind 20ms auf einem Core2Duo mit RZ-Anbindung, das kann man sicher noch ein bischen optimieren. Was das für ein Router ist weiss ich nicht, aber der darf keine Probleme mit Verbindungen haben. Auf einem Rechner zuhause sind 30ms oder mehr besser.
@Urban: für deine schnelleren Rechner ist das sicher auch ein guter Wert. Wie gross der RWI-Puffer das hängt davon ab wie schnell er auf Platte schreiben kann, je langsamer um so kleiner der Puffer.
Dateianhänge
yacy091012.jpg
yacy091012.jpg (327.24 KiB) 3267-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon Orbiter » Fr Okt 16, 2009 11:13 pm

mein Lieblingsthema: Surrogate. Neuer Rekord 89000 PPM (mit Wikipedia-Artikel).
Zeit auf neue Maßeinheit PPS umzustellen? wären ja fast 1500 Dokumente pro Sekunde
Dateianhänge
PerformanceGraph.png
PerformanceGraph.png (15.9 KiB) 3212-mal betrachtet
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Speed svn6344 :-)

Beitragvon dulcedo » Fr Okt 30, 2009 2:10 pm

Peer am DSL-Modem, Latenz 40-50ms. Angemerkt ist PerformanceQueues_p.html - LocalCrawl
Dateianhänge
yacy091030b.jpg
yacy091030b.jpg (227.27 KiB) 3161-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon Orbiter » Fr Okt 30, 2009 4:42 pm

uii, da fällt mir ein: für die OSE brauchen wir noch eine fette Stand-Demo. Wir bekommen den besten Durchsatz beim Crawlen hin, wenn die Start-URL auf eine Webseite mit einer großen Anzahl von Links zeigt. Kann jemand von euch so eine Mega-URL-Liste machen? Dann zeigen wir diesen Speed live. Lasst uns die Konkurrenz toasten.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Speed svn6344 :-)

Beitragvon sixcooler » Fr Okt 30, 2009 5:09 pm

wie viel ist 'Mega'?

hätte hier noch einen Export von ~6.8Mio Urls rumliegen

cu, sixcooler
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Speed svn6344 :-)

Beitragvon Orbiter » Fr Okt 30, 2009 6:53 pm

äh, na gut. Ist ein bisschen viel. Gibts eine Idee wie man da sowas wie die 50000 kürzesten oder interessantesten rausziehen könnte? Und welche die nicht gerade bei so einer Messe schlecht rüberkommen, also ohne 'adult entertainment'?
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Speed svn6344 :-)

Beitragvon sixcooler » Fr Okt 30, 2009 6:57 pm

weglassen geht immer :-)
ich könnt auch nach ein paar 'badwords' suchen und die treffer-URLs entfernen
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Speed svn6344 :-)

Beitragvon liebel-lab » Sa Okt 31, 2009 2:50 pm

hier ist eine liste mit allen deutschen hochschulen.
http://www.holderied.de/DeutscheHochschulen.html
welche ich auch im sciencenet verwende. vorteil: die unis sind ganz ordentlich an karlsruhe angebunden...und koennen einen schnelleren crawler verkraften...
sind zwar nicht 5.000 aber garantiert neutraler inhalt ...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Speed svn6344 :-)

Beitragvon dulcedo » Di Nov 03, 2009 3:02 am

Nach 3 1/2 Tagen ungebremstem crawl zeigt er nun Ausfallerscheiunungen, der Webserver liefert CSS und Grafiken falsch.
Gestartet mit Neuinstallation und 4000MB JVM

URLs: 5mio
Words: 7mio
Process
0.92/6435
Uptime: 3 days 16:22
System Resources
Processors: 4
Memory Usage
free: 985.34 MB
total: 3.86 GB
max: 3.74 GB
Traffic [Reset]
Proxy: 0 Bytes
Crawler: 296.61 GB
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon dulcedo » Sa Nov 07, 2009 8:34 am

RZ-Anbindung ca.5ms Latenz, es crawlt ein Quad.
Dateianhänge
yacy091107.jpg
yacy091107.jpg (123.32 KiB) 2965-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed SVN 6739

Beitragvon Quix0r » Do Mär 11, 2010 6:03 pm

Hier ein Quad-Core mit 8 GB RAM (Kingston, 1066 MHz), wobei 3172 MB zugewiesen sind mit Standart ADSL-Anbindung (Zensurprovider Vodaphone; ex Arcor):
PerformanceGraph018.png
Performance
PerformanceGraph018.png (13.35 KiB) 2888-mal betrachtet

So geht das schon seit einigen Stunden recht konstant, allerdings auch mit diesen beiden Bugs + NPE im Proxy. (Beitrag kommt noch)

Da lobt man gerade YaCy und dann dies: :(
PerformanceGraph019.png
Performanceeinbruch
PerformanceGraph019.png (13.11 KiB) 2884-mal betrachtet


Ein sehr schoener Crawl ist auch hier zu sehen:
PerformanceGraph020.png
Performance
PerformanceGraph020.png (15.32 KiB) 2868-mal betrachtet


Ich muss allerdings hinzuegen, dass ich Traffic-Shaping (Bandbreitenlimitierung am Router) im Einsatz habe. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Speed svn6344 :-)

Beitragvon Quix0r » Do Mär 18, 2010 2:21 am

SVN 6746: Hier beim Importieren von Surrogates (deutscher Wikipedia-Dump) auf einem Quad-Core 2.5 GHz mit 3500M zugewiesenem RAM (Markenspeicher, 1066 MHz) und Standart-Festplatte (kein RAID).

Weiterer lokaler Rekord fuer meine Node: 10132 PPM (oder so?)
PerformanceGraph025.png
Neuer Rekord fuer meine Node
PerformanceGraph025.png (11.55 KiB) 2830-mal betrachtet

Geht es noch hoeher? 14067 PPM!
PerformanceGraph026.png
Ueberschlaegt sich meine Node? ;-)
PerformanceGraph026.png (9.9 KiB) 2826-mal betrachtet

16881 PPM ist erreicht:
PerformanceGraph029.png
16881PPM mit Surrogates-Import
PerformanceGraph029.png (12.84 KiB) 2823-mal betrachtet
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Speed svn6344 :-)

Beitragvon Quix0r » So Mär 21, 2010 3:38 am

Wieder ein "normaler" Internet-Crawl, allerdings als Junior-Node:
PerformanceGraph030.png
Guter Crawl mit vielen unterschiedlichen URLs
PerformanceGraph030.png (16.14 KiB) 2791-mal betrachtet
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Speed svn6344 :-)

Beitragvon Orbiter » Di Apr 20, 2010 7:54 pm

mit SVN 6824 und einem Testserver der Zufallsdokumente liefert beim Inranet-Crawling:
PerformanceGraph.png
PerformanceGraph.png (12.93 KiB) 2726-mal betrachtet

Die Saturierung der Wortanzahl kommt hierbei durch die begrenzte Wortmenge des Zufallsdokument-Erzeugers, statt dessen akkumulieren sich die Referenzen zu den immer gleichen Worten. Daher nimmt der Speicher dann auch bis zu einem Flush stark zu und die Zickzack-Kurve geht leicht nach oben.

An dieser Performance habe ich nun rund 10 Tage lang gearbeitet um alle mein (16) Cores auszulasten und habe dabei die Geschwindigkeit von anfangs 3500 PPM bis auf über 20000 PPM gesteigert.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Speed svn6344 :-)

Beitragvon bbtuxi » Do Apr 22, 2010 2:14 pm

:) Dann wird es Zeit für ein neues Release.... ;) Bin mal gespannt wo schnell meine Kiste damit ist.....
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Speed svn6344 :-)

Beitragvon dulcedo » Mo Apr 26, 2010 1:39 pm

Ein Quad mit 8BG an DSL16000/1000. Beide peers mit DHT und Webcrawl gleichzeitig, der im Hintergund startet alle 10 Sekunden eine 'zufällige' Suche. Er nutzt dabei 6000/500 Mbit/s der Verbindung, eingestelles Standardprofil 100% crawl.
Dateianhänge
yacy-perf.PNG
yacy-perf.PNG (111.5 KiB) 2651-mal betrachtet
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speed svn6344 :-)

Beitragvon Quix0r » So Jun 13, 2010 3:36 pm

Ein Surrogate-Import mit Revision 6915 auf meinem Quad-Core Desktop System (2 MB Cache Festplatte).
PerformanceGraph045.png
SVN R6915 mit Surrogate-Import
PerformanceGraph045.png (15.01 KiB) 2563-mal betrachtet

Ich hatte unter http://localhost:8080/IndexImportOAIPMH_p.html einfach mal alles ausgewaehlt. :) Ich mache das aber nicht so oft.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste