Die richtige Konfiguration

Ereignisse, Vorschläge und Aktionen

Die richtige Konfiguration

Beitragvon TmoWizard » Di Okt 21, 2014 10:54 pm

Hallöchen zusammen!

(Falls das hier in diesen Bereich nicht paßt bitte verschieben, danke!)

Folgendes:

Immer wieder lese ich unter Anderem auch hier im Forum über Probleme wegen der Konfiguration von YaCy. Nun ist es allerdings so, daß natürlich nirgends die selben Rechner stehen, so daß eine allgemeingültige Anleitung eigentlich gar nicht möglich ist.

Trotzdem hier als kleine Hilfe für alle Fragenden, wobei ich dabei von dem mir verwendeten System ausgehe:

  • System: Kubuntu 14.04 LTS 64 Bit mit dem aktuellen KDE 4.14.2
  • Dateisystem: ext4
  • System und Programme werden täglich aktualisiert. Es sind auch Fremdquellen aktiv, z. B. für YaCy ("deb http://debian.yacy.net ./"; aktuell: YaCy Version 1.81/9109)!
  • Open JDK 7
  • AMD Athlon II X2 220, 2,8 GHz
  • 6 GB RAM
  • 2 x 500 GB HDD, für YaCy derzeit frei: 310 GB
  • Der Rechner wird zum täglichen Arbeiten verwendet!

Nachdem auch ich immer wieder Probleme hatte wenn der Crawler gestartet ist habe ich ein wenig experimentiert und dabei bin ich zu folgendem Ergebnis gekommen:

Ich arbeite hier mit einem ziemlich aufgemotztem SeaMonkey als Browser, Mail-Client News- & Feed-Reader und wie man an den Add-ons sieht als noch einiges mehr. Das braucht natürlich Platz im RAM und auch "etwas" CPU-Leistung. Dann nehme ich am SETI@home-Programm teil, welches ja anscheinend einige von euch hier im Forum ebenfalls kennen! :mrgreen:

Für solch ein System kann ich nun empfehlen, daß man unter http://localhost:8090/Performance_p.html den Wert bei "Für JVM reservierter Speicher" auf 2,5 GB bzw. 2560 MByte stellt, ein Crawl sollte damit wenig Probleme haben. Hiermit ist es möglich, daß BOINC genügend Power für sich bekommt und man kann damit auch mit solch einer überfrachteten Browsersuite wie meinem SeaMonkey vernünftig arbeiten. Videoschnitt und ähnliches würde ich so zwar nicht probieren, alles andere wie Office oder so sollte aber ohne Probleme möglich sein!

Natürlich gilt hierbei wie immer, daß mehr RAM besser wäre. Meine Kiste hier kann allerdings nur 2 x 4 GB verarbeiten und ich sehe nicht ein, daß ich für so einen alten 4 GB Riegel einen Haufen Kohle ausgebe! Wenn man das allerdings auf ein moderneres System (mindestens 16 GB RAM) umrechnet behaupte ich jetzt ganz einfach mal, daß man YaCy locker mal 10 GB zur Verfügung stellen kann, ohne daß man dabei besondere Einschränkungen bemerkt. Wenn dann irgend wo etwas ruckelt, dann sollte man sich besser über sein eigenes Surfverhalten oder so Gedanken machen.

Ich würde also mal sagen, daß man ab ~8 GB RAM gut und gerne die Hälfte davon an YaCy geben kann. Das schadet niemandem, hilft aber allen Teilnehmern sehr viel. Vor allem Linuxer wie ich sollten sich daran mal ein Beispiel nehmen, KDE (wie geschrieben Kubuntu 14.04) braucht nämlich schon einiges an Ressourcen!

Soviel nur einmal zum Nachdenken für die Leute, die dauernd jammern von wegen RAM-Verbrauch oder ähnlichem. Mein Peer hier ist ein "Aktive Principal", ohne daß ich hier trotz eigenem Crawler irgend etwas davon mitbekomme! Wenn ich die Möglichkeit hätte, dann würde ich ein gleichwertiges System einfach so in die Ecke stellen. Da würde dann nur YaCy laufen, damit ich wenigstens auf die mir mögliche Art der Gemeinschaft helfen kann! Das sollte so eigentlich unter jedem OS funktionieren, also auch unter OS X oder Windows.

Edit sagt: Ein sehr dringender Hinweis noch für all diejenigen, die wie ich Kubuntu verwenden:

Bremst Ubuntu den Desktop aus?

Das macht sich auch bei YaCy bemerkbar, und zwar ganz gewaltig!



Eine nachdenkliche Nacht wünsche ich nun allen

Viele Grüße aus TmoWizard's Castle zu Augusta Vindelicorum

Mike, TmoWizard Bild

PS.: Registriert: So Jul 13, 2014 4:32 pm YaCy läuft her aber schon ein paar Tage länger!
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Die richtige Konfiguration

Beitragvon freak » Mi Okt 22, 2014 2:36 pm

Dann auch von mir einige Daten zu meiner YaCy Instanz, vielleicht helfen die Infos ja dem ein oder anderen bei der Planung/Konfiguration der YaCy Ressourcen:

Ich betreibe derzeit eine YaCy Installation als virtuelles System auf meinem Arbeitsrechner zu Hause.
Die Virtualisierung erfolgt dabei mit KVM unter 'Debian testing'.

BS/Ressourcen für die YaCy VM:
RAM 2 GB (16 GB verfügbar)
CPU 2vCPU (auf AMD Athlon(tm) II X4 640 Processor 2.9 GHz)
Plattenplatz für YaCy: 40 GB
Betriebssystem CentOS 6.5

YaCy Konfiguration entspricht den Standard-Einstellungen, außer:

Memory reserved for JVM 1600 MB
50_localcrawl_loadprereq=8.0
70_surrogates_loadprereq=8.0
60_remotecrawlloader_loadprereq=8.0

Die *loadprereq Werte stehen standardmäßig auf 2, wenn ich mich recht entsinne.
Hier war eine Anpassung notwendig, da die Systemlast relativ häufig auf mindestens 2, teilweise auch auf 3 war und aufgrund der Standardwerte z.B. der Crawler die Arbeit eingestellt hatte.

Es kommt die YaCy Version 1.68/9000 zum Einsatz, ist also keineswegs aktuell.

Die Yacy Instanz ist als Robinson Peer konfiguriert und erfasst derzeit ca. 3400 verschiedene Urls mit verschiedenen Crawltiefen von 0 bis maximal 4. Die Crawlaufträge werden dabei über ein externes Perl-Skript Cron-gesteuert über die HTTP-API von YaCy abgesetzt. Bei entsprechender Anzahl an verschiedenen CrawlJobs und der zu erfassenden Dokumente, kommt Yacy bei dieser Konifguration auf teilweise über 350 Dokumente/Minute, wobei sicherlich noch wesentlich mehr gehen würde.

Die VM mit YaCy läuft permanent, sobald mein Arbeitsrechner an ist. Ich habe auch keinerlei negativen Wechselwirkungen zwischen meinem Arbeitsrechner und der VM feststelen können, obwohl ausserhalb der VM zusätzlich noch 3 Boinc Clients (jeder auf einem Core) permanent ihr Unwesen treiben. Ganz abgesehen von z.B. sehr häufig genutzten Anwendungen wie GIMP, Firefox, Thunderbird und Office.
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Die richtige Konfiguration

Beitragvon TmoWizard » Mi Okt 22, 2014 7:01 pm

Hallöchen freak,

dein Name ist Programm, oder? Deine Beschreibung kann nur einem erfahrenem Benutzer dienlich sein, ich möchte YaCy allerdings für einfache Anwender zugänglich machen! Wer bitte hat schon zuhause KVM? Das ist eine Kernel-basierende Virtuelle Maschine -> Linux, die meisten Leute haben allerdings Windows. Für diese ist es nur wichtig, welchen Prozessor sie mindestens benötigen, wie groß die Festplatte sein muß, wieviel RAM der Rechner haben sollte und wieviel sie davon YaCy geben müßen.

Außerdem werden Neueinsteiger wohl auch die neueste Version verwenden, womit deine speziellen Einstellungen eventuell keinen Wert mehr haben oder auch nicht mehr möglich sind. Ich wüßte jetzt auch gar nicht, wo ich diese finde. Sie sind also unnötig und verwirren einen normalen Anwender nur, selbes gilt auch für dein Script und den Cron-Job!

3.400 URLs? Ich habe inzwischen 10,9 Millionen hier! Eine Crawltiefe bis 4 und 350 PPM und so wenige Dokumente wundern mich echt nicht, Du crawlst da im Robinson Modus immer wieder die gleichen internen Dokumente mit deinem Script per Cron, das ist ja fast schon als lächerlich zu betrachten. 3.400 URLs bei 340 PPM hat man dann in ca. 10 Minuten fertig, der Webcrawler ist da schon ein ganz anderes Kaliber, der läuft über Stunden und Tage je nach Größe der Website und der vorhandenen Links! Hier mal die passende Rechnung dazu, also denk mal über deine Crawler nach.
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Die richtige Konfiguration

Beitragvon freak » Mi Okt 22, 2014 7:39 pm

Ich denke, es gibt da ein paar Verständnisprobleme, die ich korrigieren möchte:

Wenn ich von 3400 verschiedene URLs rede, meine ich 3400 verschiedene Domains in der Form http://www.domain.com . Die 3400 steht also nicht für die Anzahl der im Index befindlichen Dokumente. Im Index befinden sich derzeit "nur" ca. 1,3 Mio Dokumente.

Was ich hätte noch dazu schreiben sollen, ist die Tatsache, das ich mit der YaCy Instanz zu Testzwecken lediglich einen Themen bezogenen Index aufbaue, womit sich für den Moment der Robinson-Modus erklärt.

.... Du crawlst da im Robinson Modus immer wieder die gleichen internen Dokumente mit deinem Script per Cron, das ist ja fast schon als lächerlich zu betrachten....

Als lächerlich würde ich das nicht betrachten. Um auch aktuelle Informationen bzw. neue Dokumente der einzelnen Domains zubekommen, muss der Crawler natürlich wieder losgeschickt werden. Als Beispiel nimm eine News Seite, die täglich neue Nachrichten veröffentlicht. Wenn ich den Crawler heute los schicke, wird er natürlich nur die Dokumente erfassen, die aktuell verfügbar sind. Was ist aber mit den Dokumenten die morgen veröffentlicht werden? Da muss der Crawler letztendlich wieder losgeschickt werden, um die neuen Dokumente zu erfassen. Im einfachsten Fall passiert das über den YaCy internen Scheduler/Profil Editor -> /CrawlProfileEditor_p.html, in meinem, zugegeben etwas speziellen Fall, erfolgt das erneute losschicken des Crawlers eben durch ein externes Skript über YaCy's HTTP-API.

Nachtrag:
Was die speziellen Konfigurationsparameter betrifft, diese findest man unter -> /ConfigProperties_p.html bzw. direkt in der Konfigurationsdatei im Ordner DATA/SETTINGS/yacy.conf

... dein Name ist Programm, oder?...

Manchmal schon ;)
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Die richtige Konfiguration

Beitragvon Yoda0* » Mo Dez 29, 2014 10:39 am

Auch ich habe experimentiert - mit meinem Windows-Laptop. Den muss ich solange nehmen, bis ich wieder an meinen (Linux)-Tower 'rankomme. Der hat zwar auch nur 4 GB (Laptop), aber der Crawl läuft flüssig, nachdem ich das Ram für Java auf etwas über einem GB gehoben habe. Davon nutzt er gerade mal knapp 820 MB - und dass sollte für fast Jeden reichen. Zugegeben, auch ich bin ein sogenannter Profi, aber auch nur auf meinem Gebiet - aber ohne Testen läuft YaCy eben nur sehr gebremst. Dagegen habe ich mit dem Principal-Modus einfach nichts zum laufen gebracht: FTP-Adresse, ftp-Zugangsdaten, System-Adresse (Ordner, wo seed.txt gespeichert wird), serverseitige html-Adresse - alles stimmt, nur dann kommt die nette Fehlermeldung: "SaveSeedList: Seed upload failed (IO error): UPLOAD CHECK - Error: the result vector is different. Element at position 0 is different. <br>". OK, damit kann ich dann doch nichts anfangen. Ihr seht, keiner kann alles, und nicht viele User können es für Laien verständlich machen, was wie auf deutsch heißt, wenn man meist im Fachchinesisch argumentiert - obwohl es relativ simpel oben erklärt war.
Grüße von der Insel, Yoda0*
Yoda0*
 
Beiträge: 1
Registriert: Mo Dez 29, 2014 10:23 am


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron