Ressourcenbedarf

Ereignisse, Vorschläge und Aktionen

Ressourcenbedarf

Beitragvon beugierde » Fr Apr 24, 2009 10:43 pm

Hallo,

ich überlege einen yacy-Peer aufzusetzen (und den als Proxy zu nutzen), aber bin mir gerade nicht sicher wieviel RAM und Plattenplatz ein vServer dafür benötigen würde.
Was ist ein (noch sinnvolles) Minimum, gerade beim RAM?

Merci
beugierde
 
Beiträge: 7
Registriert: Fr Apr 24, 2009 10:39 pm

Re: Ressourcenbedarf

Beitragvon freq.9 » Sa Apr 25, 2009 11:09 am

Also ich überlasse meinem Peer aktuell 512MB RAM. Und mein DATA-Verzeichnis umfasst aktuell 12GB, wobei mein Peer erst ungefähr eine Woche alt ist.
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Ressourcenbedarf

Beitragvon dulcedo » Sa Apr 25, 2009 11:57 am

Solange YaCy noch über keine eigene Ressourcenbeschränkung (Grösse des Index) verfügt ist das Optimum für YaCy ist ein leistungsfähiger Server-PC mit mindestens 4GB Ram über den man alleine verfügen kann und der über eine einigermassen stabile Internetverbindung verfügt, 6/2 Mbit reichen eigentlich schon. Wegen DHT sollte man auf einen Upstream >= 1Mbit achten, mehr als 2Mbit habe ich allerdings zusammen mit anderen Diensten wie HTTP oder Mail noch nie benötigt.

Insofern ist ein shared-Host eigentlich das falsche, ganz besonders wenn man auch noch crawlen will.
Die geringste Investition bei maximaler Performance und Erreichbarkeit ist ein (Server)PC aus dem Consumerbereich, 8GB RAM, 128GB-Raid0 oder 5 für YaCy selbst und 500GB fürs System (auch für Backups), an zwei redundant geschalteten Consumer-Leitungen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Ressourcenbedarf

Beitragvon beugierde » Sa Apr 25, 2009 1:49 pm

Danke für die Infos, dann werde ich vorerst davon wohl Abstand nehmen müssen.
Schaue dann später nochmal vorbei ;)
beugierde
 
Beiträge: 7
Registriert: Fr Apr 24, 2009 10:39 pm

Re: Ressourcenbedarf

Beitragvon Lotus » Sa Apr 25, 2009 5:21 pm

Wie wichtig ist dir denn der Proxy? Ist YaCy in deinem Anwendungsfall ein Proxy-Addon? Es wurde nämlich schon vorgeschlagen ihn zu entfernen. (Ich persönlich glaube nicht dass es passiert.)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Ressourcenbedarf

Beitragvon beugierde » Sa Apr 25, 2009 6:10 pm

Wichtig ist sehr relativ, war ja mehr oder weniger nur eine Spielerei ...

Fand die Idee durchs normale Surfen Ausgangspunkte für den Suchindex zu liefern sehr interessant. Aber nen größeren root-Server miete ich mir nicht nur um das auch machen zu können ;)
beugierde
 
Beiträge: 7
Registriert: Fr Apr 24, 2009 10:39 pm

Re: Ressourcenbedarf

Beitragvon bluumi » Sa Apr 25, 2009 10:10 pm

Die Frage ist gänzlich was Du alles von Yacy erwartest.
Du kannst einen kleinen feinen Peer betreiben, oder Du kannst Dich reinhängen mit einem grossen Server. Meiner Meinung nach ist es wichtig(er) das wir viele kleine feine Peers hinzugewinnen, als nur Grosse. Von diesem Standpunkt her ist die Frage was Du mit Yacy zu erreichen erhoffst. Wenn Du nur ein wenig Deinen eigenen durch den Proxy erzeugten verkehr indezieren willst, plus noch ein wenig zum Index beitragen, so spricht doch auch nichts gegen einen (einige) kleine feine Peers mit nur 512MB YacyRAM und 20Gbyte Hdd Platz.

Ich denke die grossen Werte von "dulcedo" kamen, weil Du selber von einem vServer geredet hast.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Ressourcenbedarf

Beitragvon beugierde » Sa Apr 25, 2009 10:35 pm

Ja, ein "kleinen feinen" Peer zu liefern war so die Idee, als Spielerei, aber scheint mit dem was ich an Ressourcen über habe (max. 256MB RAM) nicht sinnvoll machbar zu sein (zumindest ein Versuch heute morgen hatte fix >300MB Belegt, und war damit nur noch am pagen).

Falls das nur Konfiguration/falsche jre ist, probiere ich das gerne nochmal.
beugierde
 
Beiträge: 7
Registriert: Fr Apr 24, 2009 10:39 pm

Re: Ressourcenbedarf

Beitragvon dulcedo » So Apr 26, 2009 7:18 am

Das ist der Punkt: egal welches BS du verwendest, sobald er Speicher auslagern muss wird die Angelegenheit fürchterlich langsam. Ein guter vHost beschränkt dir ja dann auch wirklich die Leistung (IO) um andere vHosts nicht mit runterzuziehen.
Ich habe die Erfahrung gemacht dass man für externe Zugriffe (Suchen, Proxy) wirklich keine schnelle Anbindung braucht, sie muss nur schnell reagieren und der Rechner dahinter natürlich auch. Spricht auch wieder gegen vHost, der braucht meistens einige Zehntel zum "warmwerden" wenn selten zugegriffen wird.

Anmerkung: Ein klein wenig abgefangen wird der Effekt wenn man zum swappen einen zweiten Controller oder zumindest eine eigene Systemplatte benutzt, aber das ist bei vHosts eh illusorisch. Ich messe hier Datenraten von bis zu 100MBit für das gesamte System, mehr kann er nicht, ohne swappen entfallen davon 5 Teile auf Yacy und 0.5 aufs System. Sobald er swappt wird die Bandbreite auf 5 zu 5, also hälftig aufgeteilt. Das bei schon 2 Controllern und verschiedenen Laufwerken, mit Standardkonfiguration noch erheblich weniger Einzelbandbreite für den jeweiligen Prozess. Natürlich braucht YaCy diese IO-Bandbreite nicht ständig, aber doch recht häufig, für kurze Zeit. Deswegen scheinen auch die Prozessoren kaum belastet zu sein.

Bluumi: du sprichst von kleinen spezialisierten Peers, die sind wirklich fein, können dann aber nur lokal suchen wenn sie DHT-in deaktiviert haben.
Ist es aktiv wächst der Index bis Platte voll und damit natürlich auch der RAM-Bedarf. Das meinte ich mit automatischer Res-Beschränkung. Wenn man die hinbekommen könnte dann kann man sagen: mein Peer darf max X MB Ram belegen, also darf der Index nur max Y Wörter/Urls gross werden, ab dann mach irgendwas aber nicht DHT-in abschalten.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Ressourcenbedarf

Beitragvon beugierde » So Apr 26, 2009 2:53 pm

dulcedo hat geschrieben:Ich habe die Erfahrung gemacht dass man für externe Zugriffe (Suchen, Proxy) wirklich keine schnelle Anbindung braucht, sie muss nur schnell reagieren und der Rechner dahinter natürlich auch. Spricht auch wieder gegen vHost, der braucht meistens einige Zehntel zum "warmwerden" wenn selten zugegriffen wird.


Da ich Xen nutze ist das kein so großes Problem, die 160 MB (im Test) die der vServer bekommt, die gehören im auch fest (und werden nicht ausgelagert), aber das reicht ja fix nicht mehr ...

Fände auch eine Beschränkung sehr hilfreich mit der man sowas sagen könnte bitte max. 128MB RAM, 5-10 GB Platte.
Dann würde der bei mir halt im Hintergrund 24/7 mitlaufen können.
beugierde
 
Beiträge: 7
Registriert: Fr Apr 24, 2009 10:39 pm

Re: Ressourcenbedarf

Beitragvon apfelmaennchen » So Apr 26, 2009 5:59 pm

Diese Diskussion hatten wir schon!
Was soll YaCy machen, wenn die Resourcen erschöpft sind - dann müssen zwangsläufig Daten gelöscht oder verlagert werden.
Es sollte doch mit der neuen RICELL Struktur möglich sein, einfach regelmäßig via Script einen Teil des Index auf einen Storage-Server zu verschieben.
Das ließe sich doch ggf. in den Resource Observer integrieren.
Diese Vorgehensweise schütz uns nicht vor dem Problem, dass DHT die Daten dann erneut verteilt...

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Ressourcenbedarf

Beitragvon beugierde » So Apr 26, 2009 7:19 pm

apfelmaennchen hat geschrieben:Diese Vorgehensweise schütz uns nicht vor dem Problem, dass DHT die Daten dann erneut verteilt...


Ohne die Details zu kennen: wäre es nicht möglich noch einen "Ressourcenfaktor" einzuführen, der sagt wieviel freie Ressourcen der Peer noch hat?

Am Ende läuft es ja auf die Frage hinaus: helfen viele Kleine, oder nur wenige Große?

(Ich behaupte einfach 'mal, das meine Situation mit "etwas über" nicht so selten ist)
beugierde
 
Beiträge: 7
Registriert: Fr Apr 24, 2009 10:39 pm

Re: Ressourcenbedarf

Beitragvon Huppi » Mi Apr 29, 2009 11:16 pm

Ich habe auch einen Peer mit nur 196MB RAM (gesamt) laufen, Notebook, Celeron 400MHz, Ubuntu-Server. Macht nichts anderes als DHT in/out, kein Proxy, keine Suchanfragen über den Rechner, keine anderen laufenden Programme. Geht prinzipiell, aber ich weiß nicht, was der Peer dann tatsächlich zum Netz beiträgt ...

Mehr Spaß macht YaCy auf meinem Pentium IV mit 3GB RAM, 1GB für YaCy.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Ressourcenbedarf

Beitragvon dulcedo » Do Apr 30, 2009 5:38 am

Ich habe jetzt einen Rechner mit guter Anbindung auf dem ich mal kleine Maschinen simulieren könnte, wenn jemand einen Virtualisierer kennt der so etwas leicht ermöglicht und praxisnah simuliert? Eingerichtet ist momentan Debian Etch 64, ist aber noch frei wählbar.

Meine Erfahrung ist dass bei mir noch keine Installation in einer VM befriedigend lief, ausser eben so ein Peer wie ihn Huppi als Studienobjekt am laufen hat. Die minimalste, vernünftig arbeitende Hardware die ich getestet habe ist ein Atom 2,7 / 1GB (eee-Plattform) aber unter Win unbedingt 2GB. Darin eine 5400er SATA-Platte als Flaschenhals und man kann gerade so arbeiten, mit 10-20mio Links. Aber dann auch nur noch dediziert.
Kleine Peers machen als Web-Indexer wenig Sinn wenn DHT abgeschaltet ist, weil die Datenbasis zu klein, aktiviert man DHT und damit die globale Suche dann erhöht sich proportional zu Gesamt-Laufzeit der RAM-Bedarf. Und das leider nicht begrenzbar, momentan.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Ressourcenbedarf (Exkurs Windows)

Beitragvon dulcedo » Sa Mai 02, 2009 2:59 am

Wer sich bischen mit dem Thema RAM/IO befasst findet das hier vielleicht interessant, das ist der grösste Peer der bei mir unter Win einigermassen stabil läuft, reine MS-Maschine. Ausnahme wohl aber ich teste ja.

Das Bild ist für die Entwickler intressant weil es das Problem mit dem überlaufenden Indexer zeigt, er läuft hier zwar noch, aber in ein paar Stunden ist das Tal der Speicherkurve oben am RAM-Limit angelangt und er macht dann keinen grossen GC mehr, das dürfte der Fehler sein. Hier läuft er noch:

Bild

Was man aber noch schön sieht ist die Last die beim Crawlen erzeugt wird, das ist ein System mit 2 HD-Controllern und 2 physikalischen Laufwerken: Gesamtbandbreite(oben) und die Verteilung auf: YaCy(S:mitte) System(C:/D: unten).
Die beiden Unteren Grafiken geben das Verhältnis der Aufteilung auf die verschiedenen Laufwerke an, keine Absolutwerte wie oberhalb! Ausserdem laufen die Systemkurven ca. 10mal schneller als die von YaCy.
Das ist eine Situation die sich unter Linux oder MacOS genauso darstellt.

Der Peer ist so eingestellt dass er nicht swappen muss (98% auslastung), würde er das jetzt tun, dann geht alles in die die Knie weil der IO-Bus ja schon mit ca 10Mbit Grundlast belegt ist. Eine normale Consumerplatte liefert 30-60Mbit.

Jetzt rechne das auf die einzelnen VMs in deinem Vhost hoch, dann hast du die Anforderungen an die Maschine, wenn der Virtualisierer gerecht verteilt. Verteilt er dynamisch dann bekommt du wohl die angesprochenen Antwortprobleme.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Ressourcenbedarf

Beitragvon dulcedo » Sa Mai 02, 2009 3:47 am

apfelmaennchen hat geschrieben:Diese Diskussion hatten wir schon!
Was soll YaCy machen, wenn die Resourcen erschöpft sind - dann müssen zwangsläufig Daten gelöscht oder verlagert werden.
Es sollte doch mit der neuen RICELL Struktur möglich sein, einfach regelmäßig via Script einen Teil des Index auf einen Storage-Server zu verschieben.

Das ist sicher schon irgendwo besprochen, hatte den letzten Monat aber keine Zeit mich um YaCy zu kümmern, gibt es irgendwo eine Eräuterung zum Aus/Einlagern bzw verscheiben _zwischen_ einzelnen Peers?
Diese Vorgehensweise schütz uns nicht vor dem Problem, dass DHT die Daten dann erneut verteilt...

Genau die Sache mit dem vermeiden von Doubletten verstehe ich nicht, bzw wie die ausgelagerten Zellen dann wieder eingelagert werden. Sehr einfach wäre es ja wenn man bei Platzproblemen einen Peer einfach nach und nach veschieben könnte, in einen anderen, neuen oder existierenden. Geht das?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Ressourcenbedarf

Beitragvon kellerlanplayer » Mo Mai 25, 2009 10:47 pm

Ich klink mich mal hier ein.

Will Yacy dann auch als freie Suche anbieten und bissl werbung dafür schalten.

Hab vor mir nen VServer zuzulegen

1024 MB Ram (Flex 2048)
250 GB Festblatte

Meine Frage ist, wie viele Links/Wörter kann ich ca. Crawlen ohne dass es größere Einbusen beim Suchen über die Seite gibt.

Danke schonmal ;)
kellerlanplayer
 
Beiträge: 30
Registriert: Sa Mai 23, 2009 12:46 pm

Re: Ressourcenbedarf

Beitragvon dulcedo » Di Mai 26, 2009 1:03 am

Da würde ich dir grade jetzt ein wenig Geduld empfehlen, beim Speicherbedarf wird gerade experimentiert.
Oder einfach ausprobieren und mitmachen, bei 1024 solltest du bis 20mio Wörter im Speicher halten können (flex bedeutet dazubuchbar?), wielange es dauert bis sie nicht mehr reichen muss ausprobiert werden, es wäre ideal wenn es reichen würde. Bei 1024 rede ich aber von echten 1024MB für Java, deswegen die Frage nach flex.

Wenn du dir den Server allerdings erst zulegst dann rechne mal was der Preisunterschied zu einem dedicated Server wäre, du braucht kein Managed Hosting. Ein reines, aktuelles Debian reicht, YaCy bringt alles mit was benötigt wird und ist meines Wissens nicht bekannt angreifbar.

Oder als weitere Alternative suche dir eine gute Anbindung und stell dir dort deine eigene Maschine auf, das ist die preisgünstigste und flexibelste Lösung, auf alle Fälle für den Anfang zum experimentieren. Bandbreite braucht YaCy nicht viel, 6/1 Mbit reichen, sie muss nur zuverlässig und schnell verfügbar sein (Latenz) und 10GB Traffic pro Tag solltest du rechnen.
Das Portal selbst hostest du bei einem PHP-Billighoster. Merkst du das Portal wird akzeptiert dann schau dich für den Peer nach einem Rechenzentrum um, Umzüge jeglicher Art sind für YaCy eine leichte Übung.

Wenn du Dir den Unterschied zwischen verschiedenen Anbindungen/PC-System ansehen magst gebe ich dir ein paar dyndns-Adressen, dort kannst du dann manuell oder per Portal suchen lassen. Einer wäre http://yacy.gets-it.net ein sehr flotter Quadcore-Server mit 8GB, an einem Home-Kabelmodem. Den kannst du auch über die Portalsuche testweise anbinden um einen Eindruck von der Geschwindigkeit zu bekommen, dann abwägen ob es am Anfang gleich ein Rechenzentrum sein muss.
Das ist sowieso als Wiki-Seite geplant, hat bei dyndns jemand einen 'offiziellen' Account für YaCy angelegt?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Ressourcenbedarf

Beitragvon kellerlanplayer » Mo Jun 01, 2009 12:55 pm

Hi, sry, dass ich mich jetzt erst melde, aber hab noch auf die neuen Serverangebote gewartet.

Hab zwischenzeitlich das ganze mal bei mir daheim ausprobiert, mit DSL 10k von KabelDeutschland, aber die Leistung war nicht so wie ich mir das vorgestellt hab.
Möchte das so lösen, dass man gleich auf die Startseite kommt (wie wenn man localhost aufruft). Designtechnisch noch bisschen was hinzufügen.
Aber ansonsten so lassen.

Flex bedeutet in dem Fall: V-Server werden ja nur auf einem server simuliert, also teilen sich mehrer User einen Server. Nehmen wir mal an auf einem Server mit 8 GB Ram sind 6 Kunden, jedem steht 1GB zur verfügung. Dann sind nur noch 2GB Ram übrig, die werden dann als flexibler Ram aufgeteilt, wovon der einzelne Kunde aber max ein weiteres GB bekommen kann. So ungefähr ist das.

Aber hab jetzt nen viel besseres Angebot gefunden, dieses werde ich mir wohl besorgen.
Von Hetzner: einen root server mit einem "Intel® Core™ i7-920 Quad-Core" Prozessor mit 8 GB DDR3 und 2x 750 GB Festplatte.

Damit sollte man schon bisschen was reißen können hoff ich ^^
Aber werd mich damit leider erst nach den Prüfungen befassen können, aber darauf freu ich mich schon. Hab jetzt daheim einiges rumgebastelt und ausgetüftelt. Aber ich muss sagen für den Laien ist das schon noch harter tobak, wenn man mehr machen will als yacy einfach nur laufen zu lassen.

Übrigens: Danke für deine ausführliche Antwort

MFG
kellerlanplayer
 
Beiträge: 30
Registriert: Sa Mai 23, 2009 12:46 pm

Re: Ressourcenbedarf

Beitragvon dulcedo » Mi Jun 03, 2009 7:55 am

kellerlanplayer hat geschrieben:Flex bedeutet in dem Fall: V-Server werden ja nur auf einem server simuliert, also teilen sich mehrer User einen Server. Nehmen wir mal an auf einem Server mit 8 GB Ram sind 6 Kunden, jedem steht 1GB zur verfügung. Dann sind nur noch 2GB Ram übrig, die werden dann als flexibler Ram aufgeteilt, wovon der einzelne Kunde aber max ein weiteres GB bekommen kann. So ungefähr ist das.

Das ist problematisch weil YaCy je nach Indexgrösse auf das RAM angewiesen ist, es sind Tabellen im Speicher die es ermöglichen überhaupt so schnell zu suchen. Sinn der Tabellen ist sie im RAM zu haben also nutzt es nichts wenn das BS sie auf Platte auslagert, es geht aber wie schnell kannst du dir denken. Du brauchst also eine bestimmte RAM-Grösse garantiert.

Aber hab jetzt nen viel besseres Angebot gefunden, dieses werde ich mir wohl besorgen.
Von Hetzner: einen root server mit einem "Intel® Core™ i7-920 Quad-Core" Prozessor mit 8 GB DDR3 und 2x 750 GB Festplatte.
Damit sollte man schon bisschen was reißen können hoff ich ^^

Ja das kannst du, wirklich alles was möglich ist, aber er wird sich die meiste Zeit langweilen.
Nimmst du eine Kleinere wirst du recht bald an irgendeine Grenze stossen ab der nicht mehr alles geht. Das muss noch besser einstellbar werden, wird es aber wohl von alleine wenn mehr Peers im Netz vorhanden.

Aber werd mich damit leider erst nach den Prüfungen befassen können, aber darauf freu ich mich schon. Hab jetzt daheim einiges rumgebastelt und ausgetüftelt. Aber ich muss sagen für den Laien ist das schon noch harter tobak, wenn man mehr machen will als yacy einfach nur laufen zu lassen.

Ich habe ein paar Monate getüftelt, natürlich nicht am Stück und Yacy war auch noch nicht so weit wie jetzt, und es wäre sehr bequem gewesen das auf der von dir angedachten Maschine zu machen, aber aus kaufmännischer Sicht absoluter Unsinn. Es reicht zu wissen dass die Mängel einer "home" DSL-Leitung YaCy ein wenig bremsen und schlechter erreichbar machen, der Rest lässt sich viel bequemer zuhause machen. Grade Sachen welche Hardware perfekt ist, das ist recht kniffelig, je nach Einsatzgebiet.
Wenn du merkst du hast eine gute Installation die reicht dir aber von der Performance nicht mehr dann kannst du dir die dafür passende Maschine mieten. Kannst du auch vorher schon, ich kenne deinen Geldbeutel nicht, es wäre prima für das Netzwerk. Wie leicht das umziehen ist hast du sicher schon gemerkt: tar-gz über das yacy-verzeichnis, per ftp zum Zielserver, dort braucht du nur ein nacktes Linux.


Übrigens dein Nick: YaCy mag Lanpartys, dort hält sich eine Menge teure Hardware auf die sehr viel Zeit eigentlich nur nutzlos dasteht. YaCy ist es aber egal wo die steht, ein Netzwerkanschluss braucht die Maschine sowieso, dort wo sie steht. Dann kann man sie auch solange sie nicht spielt mit YaCy beschäftigen, das Netzwerk stört sich nicht daran wenn diese Maschine fehlt und das macht wofür sie gekauft wurde. Man muss nur einige Res teilen, vom Rest ist genug vorhanden um das andere Anwendungsgebiet solange schlafen zu legen. Also weitersagen, man kann auch einfach nur damit spielen und nutzt dem Netzwerk.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste