Dauerbetrib auf Rechnern mit begrenzten Recourcen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Llandon » Sa Okt 31, 2009 9:27 am

Hallo zusammen!
Zum Thema "volle Festplatte" habe ich so vor einem halben Jahr schon mal einen Artikel geschrieben als ich meinen damaligen Yacy-Peer abschalten mußte weil es nicht zu verhindern war das nach einer gewissen Zeit die Festplatte vollläuft.
Nun habe ich Yacy erneut installiert und es zeichnet sich ein ähnliches Phänomen ab. Die Grenze für freizuhaltenden Platz ist auf 15GB eingestellt, Yacy erreicht diese Grenze und stellt das Crawlen ein. Trotzdem läuft die Platte weiter munter voll.
Wie machen das die User die "nebenbei" einen Teil ihres Rechners für Yacy zur Verfügung stellen? So war das doch, wenn ich richtig gelesen habe, gedacht. Oder??
Eine zweite Sache die mir aufgefallen ist ist das Yacy keine Daten für Remote-Crawls bereitstellt obwohl ich diese in der Konfiguration aktiviert habe.

Meine momentane Version ist 0.900/06128 auf Peer vdbweb.

Vielen Dank im Vorraus
Matthias Vor dem Berge
Llandon
 
Beiträge: 25
Registriert: Di Feb 17, 2009 10:28 am
Wohnort: Borgholzhausen

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Orbiter » Sa Okt 31, 2009 10:39 am

also das ist eigentlich eine gute Frage weil es mir hier jedenfalls klar macht dass es zu den Ressourcen auch so eine 'Use Case' Vorgabe geben sollte. Das 'Problem' ist nun bei YaCy offenbar, dass wegen schnellem Crawler und IO-effizienten Indexierer ein Anschlag sehr schnell erreicht wird. Ich sehe hier als einzige Lösung, dass der User eine Zielvorgabe vorgeben muss, bei dessen Erreichen die Funktionen zum Sammeln von Indexen abgeschaltet wird. Natürlich gibt es die Frage 'was dann'. Dann macht man halt so viel DHT wie der User per Durchsatzdefinition erlaubt.

Geht das in die richtige Richtung?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Phiber » Sa Okt 31, 2009 11:57 am

Das Problem gibt es ja nun schon lange, und irgendwie müsste man wirklich mal stärker daran arbeiten, um auch normale User "längerfristig" zu halten.

Festplattenspeicher ist meiner Ansicht nicht das Problem ansich, aber die Folge dass ein grosser Index halt viel Arbeitsspeicher belegt. Ich würde mal sagen der Standarduser möchte für sein YaCy 256-15000 MB von seinen 4GB abgeben, während er nebenbei auf dem PC arbeitet. Nunja, 1GB für YaCy braucht man halt einfach verdammt schnell.

Einfach nur Funktionen bei erreichen eines bestimmten Limit's auszuschalten, halte ich aber nicht für den richtigen Weg.

-Index-Verwaltung: Hier könnte man noch einiges realisieren.
Als einfaches Mittel, indem man alle Links löscht die älter als X sind. Weiter gab es doch auch mal eine Prüfung zwischen Links/Words, welche via Extra-Script ja auch ausgeführt werden konnte. Das alles müsste man halt aber mittelfristig auch richtig in das Webmenü einbauen.
Auch für die manuelle Index-Pflege vielleicht das grundsätzliche Instrument, einfach Links/Words aus dem Index zu entfernen, statt sie zuerst zu blacklisten und danach einen Index-Prüfung durchführen zu müssen.
Weiter könnte man vielleicht noch längerfristig irgendwie eine Betrachtung/Darstellung des Index kreieren. Das würde die Pflege des Indexes für Peers welche nur bestimmte Inhalte pflegen (z.b. thematisch) erheblich vereinfachen.

Das ist mir jetzt erstmal eingefallen, auch wenn das natürlich viel Arbeit ist. Aber etwas Index-Pflege hilft glaubs allen, nicht nur kleinen Peers welche YaCy unter 20GB halten wollen, sondern auch bluumis Mega-Peer der selbst bei 8GB JVM nimmer startet :D

Zum Funktionen ausschalten doch noch was: Vielen Leuten, wie Llandon hier ist halt nicht ganz bewusst dass die Festplattenbegrenzung nur das crawlen abschaltet und nicht DHT. Vielleicht wollen einige User wirklich eine "harte" Limite an Festplattenplatz und man müsste auch DHT miteinbeziehen.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon sixcooler » Sa Okt 31, 2009 3:47 pm

Da mir dieses Problem sehr am Herzen Liegt hatte ich mich damit auch schon mal beschäftigt.

Das man bei knapp werdenden Ressourcen nicht mehr willd crawlen kann sieht sicher jeder schnell ein und lässt das ruhiger angehen oder ganz.
Aber via DHT kommt ja mittlerweile eine enorme Menge hinein und ist vorraussetzung um bei der suche andere Peers mit einzubeziehen.
Daher unterbreche ich dieses wenn der Speicher knapp wird:
Code: Alles auswählen
Index: htroot/yacy/transferRWI.java
===================================================================
--- htroot/yacy/transferRWI.java   (Revision 6438)
+++ htroot/yacy/transferRWI.java   (Arbeitskopie)
@@ -37,6 +37,7 @@
import net.yacy.kelondro.data.word.WordReferenceRow;

import net.yacy.kelondro.logging.Log;

import net.yacy.kelondro.util.FileUtils;

+import net.yacy.kelondro.util.MemoryControl;

import net.yacy.repository.Blacklist;



import de.anomic.http.server.RequestHeader;

@@ -86,6 +87,7 @@
         boolean granted       = sb.getConfig("allowReceiveIndex", "false").equals("true");

         final boolean blockBlacklist = sb.getConfig("indexReceiveBlockBlacklist", "false").equals("true");

         final long cachelimit = sb.getConfigLong(SwitchboardConstants.WORDCACHE_MAX_COUNT, 100000);

+        final long recvMem    = sb.getConfigLong("50_localcrawl_memprereq", 1048576);

         final yacySeed otherPeer = sb.peers.get(iam);

         final String otherPeerName = iam + ":" + ((otherPeer == null) ? "NULL" : (otherPeer.getName() + "/" + otherPeer.getVersion()));               

         

@@ -119,6 +121,12 @@
             granted = false; // don't accept more words if there are too many words to flush

             result = "busy";

             pause = 60000;

+        } else if (MemoryControl.available() < recvMem) { // cause plasmaSwitchboard.dhtTransferJob() uses 1024*1024*25

+            // we are running out of memory

+            sb.getLog().logInfo("Rejecting RWIs from peer " + otherPeerName + ". We are too busy (Memory=" + MemoryControl.available()/1024/1024 + " MB).");

+            granted = false; // don't accept more words if there are too many words to flush

+            result = "busy";

+            pause = 60000;

         } else if (otherPeer.getVersion() < 0.75005845 && otherPeer.getVersion() >= 0.75005821) {

            // version that sends [B@... hashes

             sb.getLog().logInfo("Rejecting RWIs from peer " + otherPeerName + ". Bad version.");


Dieses (auch wenn 'busy' evtl. nicht gewünscht ist) und regelmäßiges nutzen von URLAnalysis zum entfernen nicht mehr gebundener URLs lässt mich fein mit meinen bescheidenen Ressourcen teilhaben.

Cu, sixcooler
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Lotus » Sa Okt 31, 2009 7:58 pm

Phiber hat geschrieben:Zum Funktionen ausschalten doch noch was: Vielen Leuten, wie Llandon hier ist halt nicht ganz bewusst dass die Festplattenbegrenzung nur das crawlen abschaltet und nicht DHT. Vielleicht wollen einige User wirklich eine "harte" Limite an Festplattenplatz und man müsste auch DHT miteinbeziehen.

Ich habe gerade extra noch einmal in den Code geschaut. DHT wird bei min(1/5*disk.free, 100mb) abgeschaltet. Ich wollte gerade eine Änderung auf mindestens 1000mb einchecken. Aber mir ist dann eingefallen, dass YaCy dann nicht mehr unter knappen Resourcen laufen kann. Das ist der Grund für dieses Verhalten.

edit: in 6441 kann das nun eingestellt werden: disk.free.hardlimit

sixcooler hat geschrieben:...DHT...
Daher unterbreche ich dieses wenn der Speicher knapp wird:

Die Lösung gefällt mir sehr gut. Den Crawl-Memory-Wert zu nehmen ist eine gute Idee.

Gibt es eine Möglichkeit Methoden direkt nach einem Java-GC aufzurufen? Dann könnte es in den Resource Observer eingebaut werden. Derzeit läuft der im cleanupJob. Manuelle GCs machen wir wie ich im Code gesucht habe nur im Notfall.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Llandon » Mo Nov 02, 2009 8:32 pm

Nabend!
Ich versuche mal meine Situation zu beschreiben...
Ich habe einen V-Server gemietet. Das ist reines Hobby, zum experimentieren mit Linux und zum umgehen einiger UMTS-Einschränkungen.
Von Yacy habe ich in der C`t erfahren und das als gute Sache erkannt.
Also beschlossen meinen bescheidenen Beitrag beizutragen.
Das der DHT zur gemeinsamen Suche notwenig ist meine ich verstanden zu haben. Daher schalte ich das auch nicht ab.

Meine Erwartung war Yacy ohne detaillierte Programmierkenttnisse in Sachen java mit moderatem Pflegeaufwand betreiben zu können.
Sixcoolers Lösung ist sicher schön doch übersteigt das mein Fachwissen.
Im Moment schaue ich zu wie die (bescheidene) Platte auf dem Server vollläuft ohne das ich Yacy sagen kann: Danke, reichlich Index gesammelt, das vorhandene zu Verfügung stellen und mir den Rest lassen!
Und somit hab` ich wieder das Problem irgendwann Yacy stoppen zu müssen weil ich nicht jeden Tag auf den Rechner schauen kann um im Falle der vollen Festplatte eingreifen zu können.

Ich hab` dann mal mit Freunden drüber gesprochen, "normale" Internetuser, vom Spieler bis zum 0815-Surfer.
Der eine sorgt sich spontan um die Recourcen die er für das Spielen benötigt. Diese User werden Yacy wahrscheinlich nicht installieren.
Der andere interessierte sich schon eher für Vor- und Nachteile. Die Erstellung eines "eigenen" Indexes in der Community, den eigenen Surfgewohnheiten folgend fand er richtig gut, doch die Aussicht sich intensiv mit dem Programm beschäftigen zu müssen um die verscheidenen Parameter im Auge behalten zu können führt zur Ablehnung.

Wie läuft das eigentlich auf "normalen" Rechnern??
Irgendwann ist doch auch eine 1TB-Festplatte voll, oder wie geschrieben der Hauptspeicher???
Gibt`s hier User die den Rechner "nur" zum Arbeiten nutzen und Yacy läuft hintenhinter wie z.B. der SETI-Client??

Grundsätzlich möchte ich noch schreiben das ich Yacy sehr gut finde!!!!!!!!
Es macht mir als interessiertem Laien großen Spaß mal in die Welt der Suchmaschinen hineinschnuppern zu können und die verfolgten Ziele finde ich echt gut!
Soweit mir möglich werde ich auch weiter teilhaben!

Matthias Vor dem Berge
Llandon
 
Beiträge: 25
Registriert: Di Feb 17, 2009 10:28 am
Wohnort: Borgholzhausen

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Phiber » Mo Nov 02, 2009 10:02 pm

Was mir noch eingefallen ist:

Vielleicht doch mal Beschränkungen Anhand des Datenmenge/s einführen, statt nur nach den Timings. Also für alle möglichen Unterbereiche, Up- und Download.
Das würde die Datenmenge relativ gut planbar machen, speziell auch für die angesprochenen Leute welche YaCy eher im Hintergrund laufen lassen möchten. Der neue Crawler (grosses Lob) ist ja nun eh meist am Leitungslimit, und DHT könnte man so halt relativ gut anpassen.

Orbiter meinte letztes mal das müsse man am besten mit der kompletten Überarbeitung des Apache-Servers zusammennehmen. Ka ob das vor 1.0 noch reinkommt ;)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Orbiter » Mo Nov 02, 2009 11:49 pm

danke Llandon für deinen Beitrag, zum einen weil du dir viel Mühe gemacht hast um ein Feed-Back bei deinen Freunden zu bekommen, und zum anderen weil du manche Punkte ziemlich leicht als Problemstelle erkennbar dargestellt hast:

"Im Moment schaue ich zu wie die (bescheidene) Platte auf dem Server vollläuft ohne das ich Yacy sagen kann: Danke, reichlich Index gesammelt, das vorhandene zu Verfügung stellen und mir den Rest lassen!"
das zeigt dass wir hier noch nicht transparent gemacht haben, wie die Ressourcen belegt werden. Und transparent würde es nur mit einer vorgegebenen Beschränkung sein. Wie würdet ihr einen kleinen 'pseudo-Preis-Regler' finden, der die selbsteingestellte Beschränkung mit einem 'was würde ich bezahlen wenn ich das kaufen würde' Preis versieht?
Datenbasis: http://www.google.com/enterprise/mini/index.html 2600 Euro für 50000 Dokumente (ein Witz für YaCy). Oder 10 Mio Dokumente wie die GB-7007? (http://www.google.com/enterprise/pdf/gsa6_models_DE.pdf) kostet so weit ich weiss 45000$ im Jahr Miete! Da kann man dann den Regler auf 20 Mio stellen, brauch nur ein paar Gigabyte auf der Platte und man weiss dass das ganze einen Industriewert von rund 90T€ hat.

"Recourcen die er für das Spielen benötigt"
kann ich völlig verstehen.

"Aussicht sich intensiv mit dem Programm beschäftigen zu müssen um die verscheidenen Parameter im Auge behalten zu können führt zur Ablehnung."
verstehe ich auch, aber hier gäbe es 2 Herangehensweisen: Die 'Parameter' mehr spielerischer zugänglich machen (blinkiblinki) oder ganz weg machen. Beides würde in die Richtung "YaCy Fun"-Release gehen, finde ich prinzipiell nicht so schlecht. Warum nicht mal was neues probieren. Wir haben ja nun die yacycore Library, und da kann man mal was neues drumherum stricken.

"den Rechner "nur" zum Arbeiten nutzen und Yacy läuft hintenhinter wie z.B. der SETI-Client"
zumindest bei mir ist das so. Ich spiele selten, das Programmieren ist für mich sowas wie ein 'Aufbauspiel'.

"großen Spaß mal in die Welt der Suchmaschinen hineinschnuppern zu können"
inzwischen haben wir ja was vorzuweisen, wo man wirklich herumschnuppern kann. Ich finde es gut das Thema auch so zu sehen, YaCy als Experimentierbox. Da kann nur gutes bei rauskommen.

Das war ein inspirierender Beitrag, weiter so!
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Lotus » Mi Nov 04, 2009 9:02 am

Lotus hat geschrieben:
sixcooler hat geschrieben:...DHT...
Daher unterbreche ich dieses wenn der Speicher knapp wird:

Gibt es eine Möglichkeit Methoden direkt nach einem Java-GC aufzurufen? Dann könnte es in den Resource Observer eingebaut werden. Derzeit läuft der im cleanupJob.

In MemoryControl machen wir einen GC, wenn ein Thread diesen anfordert.

@Orbiter:
Ich habe nun was geschrieben, das von
net.yacy.kelondro.util.MemoryControl auch das Switchboard in de.anomic... nutzt. Soll wahrscheinlich strikt getrennt bleiben, oder? Dann muss ich es noch auf push/pull umstellen bevor ich es einchecke.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon dulcedo » Mi Nov 04, 2009 9:38 am

Phiber hat geschrieben:-Index-Verwaltung: Hier könnte man noch einiges realisieren.
Als einfaches Mittel, indem man alle Links löscht die älter als X sind.


Es dürfte nicht sehr aufwändig sein über die Web-Structure eine Art semantische Löschung zu realisieren: Bitte räume mir alles im Kontext von xy.domain.tld aus meinen Index. Das zusammen mit einer zeitlichen Eingrenzung (haben wir den Crawl-Zeitpunkt?) würde schnell sehr viel Müll beseitigen.
Ergänzung: Dafür wäre die andernorts angesprochene Simulation eines Crawls ohne Indexierung optimal.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Orbiter » Mi Nov 04, 2009 9:53 am

Lotus hat geschrieben:@Orbiter:
Ich habe nun was geschrieben, das von
net.yacy.kelondro.util.MemoryControl auch das Switchboard in de.anomic... nutzt. Soll wahrscheinlich strikt getrennt bleiben, oder? Dann muss ich es noch auf push/pull umstellen bevor ich es einchecke.

Das noch nicht vollständige Refactoring hatte (u.a.) den Zweck, kelondro als core-Library aus YaCy ganz herauszunehmen und keine dependencies zur Funktion von YaCy zu haben, damit man das als Library auch in andere Software integrieren kann. Wenn du was geschrieben hast, das aus MemoryControl das Switchboard aufruft ist es nicht gut. Andersrum geht.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon dulcedo » Mi Nov 04, 2009 11:09 am

Kurze Anmerkung zur Res-Knappheit: Ich arbeite gerade am unter Win7 mit 12GB RAM. Und nur die sind wirklich kritisch/wichtig.
Davon brauche ich 9GB und 300GB Platte fest für die JVM, die indexiert 70mio URLs im freeworld und crawlt dabei stündlich mit 500ppm das wichtigste aktuell.

Nebenbei Photoshop, zig Browser, Editoren, PDFs, Office, Messenger, ...
Das ganze fühlt sich unter einem AMD-Dualcore nur selten etwas ruckelig an und verbraucht ohne Bildschirm 50Watt.
Alle 2 Wochen wird er mal neu gestartet. Das aber eher ein Windows-Problem.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Lotus » Fr Nov 06, 2009 8:17 pm

Ich habe nun eine Option zur DHT-Deaktivierung wegen RAM eingecheckt.
Die Option lautet
memory.acceptDHT in kbytes
Die muss noch von Hand angelegt werden und löscht sich bei jedem Start. Wäre schön wenn jemand mal einen kleinen Kamikaze-Peer aufsetzen würde zum Ausprobieren. Sagen wir mit 30000kbyte in der Option. Deaktivierung kann einige Zeit dauern.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon sixcooler » Sa Nov 07, 2009 4:29 pm

Allerbesten Dank Lotus das Du Dich dieser Idee angenommen hast.

Gestern Nacht habe ich das auch mal ausprobiert - mit verschiedenen Werten.
Es funktioniert wunderbar - nur bin ich mir nicht sicher on der Ort für checkDHTrule(avail) zuverlässig greift.
(ist mein DHTkbytes größer als die der meisten Aufrufe der Methode request könnte es unter den Tisch fallen)

Und nur so zu meiner Information: in wie fern sollte es dem Freeworld schaden können?
Ist es so nicht besser als wenn ein Peer einfach mangels Speicher 'erstickt'?

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Lotus » So Nov 08, 2009 9:43 pm

Danke für die Rückmeldung.
Ich halte die Stelle für bestmöglich, weil sie nur dort (nach gc) den real "freien" Speicher ermitteln kann.

Eine andere Vorgehensweise die ich noch nicht weiter als in einer Schleife getestet habe, wäre das Erzeugen eines Dummy-Objekts ohne irgendwelche Referenzen, das per finalize-Methode einen GC erkennt. Aber ich glaube Java macht auch mal kleine GCs, in die Thematik müsste ich mich wieder einlesen - dann ist die Erkennung wieder weniger zuverlässig.

sixcooler hat geschrieben:Und nur so zu meiner Information: in wie fern sollte es dem Freeworld schaden können?

Das habe ich geschrieben, weil ein fehlerhafter Programmcode DHT auf ganz freeworld deaktivieren würde und nicht vorgesehen ist, DHT automatisch wieder zu aktivieren.

Nun, was ist ein guter Wert für DHT-Abschaltung? 40MB, weil dann noch gesucht werden kann ist mein Vorschlag. Damit fehlt auch noch eine "Backdoor", um trotz abgeschaltetem DHT-in globale Suchen durchführen zu können.
Und eine schicke Seite die mal anzeigt, was an Beschränkungen gegriffen hat.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon sixcooler » Mo Nov 09, 2009 4:44 pm

Bisher hatte ich diese Lösung ja nur auf experimentellen peers probiert.
Seit heute Früh läuft das mit einer DHT-Abschaltung bei 50MB auch auf meine 'Hauptpeer' (sixcooler).

Welche Wert am am Besten Ist - da bin ich noch am suchen:
Viel weniger als 40MB sollte man nicht an 'Luft' lassen.
Mehr als 80MB macht keinen Sinn da dann ein voller Cache noch nicht in ein blob geschrieben sein könnte.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Dauerbetrib auf Rechnern mit begrenzten Recourcen

Beitragvon Copro » Fr Jan 15, 2010 11:24 pm

Ich suche auch eine Lösung für ein paar Rechner die praktisch immer laufen.

Rechner zuhause: Core2Duo Intel 1,8 Ghz mit 3GB RAM unter Windows XP mit 5GB freiem Platz bzw. Betrieb im RAM Disk (am Liebsten)
Rootserver klein: Intel Celeron 2,40 Ghz mit 512 MB RAM unter Linux mit 5GB freiem Platz
Rootserver gross: Intel Xeon 1,80 Ghz mit 1GB RAM unter Linux mit 50GB freiem Platz

Meine ideale Konfiguration wäre in dem Fall eine RAM Disk Installation (Wiki: http://www.yacy-websuche.de/wiki/index. ... sk_Windows) auf dem Windows Rechner zuhause an dem auch mal gearbeitet wird. Mein Ziel wäre es möglichst lokal (ausser in der RAM Disk) nichts zu speichern und alle Ergebniss an andere Peers zu verteilen - z.B. an den grossen Server.
Und auf dem kleinen Celeron Server eine Konfiguration die möglichst ebenfalls nur Such- oder Crawl-Anfragen akzeptiert aber lokal möglichst auch nichts speichert sondern die Ergebniss ebenfalls abgibt - z.B. an den grossen Server.
Und der grosse Server läuft ohne Einschränkungen ganz normal und nimmt zusätzlich eingehende Daten an.

Ich habe von der Live CD mit YaCy gelesen dass diese ebenfalls nur lokal im RAM läuft und alle Ergebniss auf andere Peers verteilt, die sich dafür gemeldet haben. Vielleicht kann da nochmals jemand bestätigen, dass das mit dem Parameter storagePeerHash funktionieren müsste.
Und zudem wäre ich für Tips und Tricks oder vielleicht auch an anderen möglichen Konfigurationen interessiert.

Aktuell habe ich es im Peer-to-Peer Modus versucht und habe die Netzwerkkonfiguration (http://localhost:8080/ConfigNetwork_p.html) so angepasst:
Index-Verteilung: [x] Dies aktiviert den automatischen, DHT-basierten Versand an andere Peers.
aktiviert (x) / während des Crawlings deaktiviert.
aktiviert (x) / während des Indexierens deaktiviert.
Index-Empfang [ ] Remote Index-Übertragungen akzeptieren.
Dies funktioniert nur, wenn Sie einen Senior-Peer haben. Die DHT-Regeln arbeiten nicht ohne diese Funktion.
verwerfe (x) / akzeptiere übertragene URLs, die zu Ihrer Blacklist passen.
Remotecrawl-Anfragen akzeptieren [x] Führe Indexierung bei Anfrage eines anderen Peers aus.
Dies funktioniert nur, wenn Sie ein Senior-Peer sind.
Lade mit maximal 60 Seiten pro Minute (PPM)


Eventuell habe ich mit dem Abschalten des Index Empfangs ja auch die DHT Regeln ausser Kraft gesetzt - auf jeden Fall lassen sich die Peers nun nach etwa einem Tag kaum mehr starten weil zuviele und teilweise auch zu grosse .blob Dateien entstehen.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste