Verteilte alte Boxen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Verteilte alte Boxen

Beitragvon bluumi » Do Okt 16, 2008 9:45 am

Huppi hat geschrieben:Ich habe 6 Uralt-Kisten als dedicated YaCy-Boxen laufen, Celeron 400/450 MHz, 512MB RAM, 200 GB HDD..... an wenigen Schrauben gedreht ....., die machen DHT, nehmen globale Crawls an (aber z.B. nur 5 pro Minute).


Mich würde interessieren ob man mit YaCy einen Cluster bauen kann....
So dass z.B. 10 Kisten den 50x höheren Speed des lokalen Netz verwenden um (remote)Crawljobs untereinander auszutauschen, Kurzum eine Lastverteilung. :-)
Ich hab rund 10 alte Celeron 700Mhz / 256MB bzw. 512MB mit 20GB Hdds, die ich aufstellen könnte. Aber ich kann keinen weiteren Portforward mehr machen. Ich könnt mir also vorstellen dass ein (CPU/RAM starker) Master von aussen erreichbar ist welcher auf z.B. Port 8080 erreichbar ist, und dieser (Crawl/index) Jobs an seine kleinen Knechte abgibt. Die Knechte melden dann die fertigen Jobs an den Master zurück.

Leider verfüge ich nicht über das Wissen / Zeit mich in Linux zu vertiefen ... :geek: würde es desshalb eher auf Win2k machen.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verteilte alte Boxen

Beitragvon Huppi » Do Okt 16, 2008 1:15 pm

Bei mir haben die Kisten alle ihren eigenen Port, ab http://huppi.dyndns.org:8081
Ob das nach Deiner Idee geht, kann ich auf Anhieb nicht sagen.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Verteilte alte Boxen

Beitragvon bluumi » Do Okt 16, 2008 2:44 pm

Huppi hat geschrieben:Bei mir haben die Kisten alle ihren eigenen Port

Wie gesagt kann ich keine zusätzlichen Ports öffnen(*), aber mal unter der Annahme ich könnte :mrgreen: , würden bzw tun Deine Peers denn untereinander "lokal" kommunizieren?

*)Der Anschluss wird uns (kostenlos) zur Verfügung gestellt, dabei ist vor unserem Anschluss eine Firewall des Dienstleisters, welche nur die Kommunikation auf einer handvoll Ports zulässt. Da ich bereits viele Ports benötige kann ich nicht einfach jedem Peer einen Port zuteilen.

Wie aber "füttert" man so einen "Schwarm" an Peers? Nur via remoteCrawls? Wenn ja, wie "gewährleistet" man, dass diese auch beschäftigt sind .. ich fänd es nicht wirklich lohnenswert wenn diese grösstenteils nur Ideln. Und wie ist es in Sachen HDD Space? In einem anderen Thread las ich dass Yacy da einfach "voll läuft" (jedenfalls in Sachen DHT)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verteilte alte Boxen

Beitragvon Huppi » Fr Okt 17, 2008 5:35 pm

Lokal untereinander kommunizieren: das hängt vom Router ab. Viele Netgear-Router ermöglichen wohl nicht, daß sich die Rechner im internen Netz mit der externen IP-Adresse sehen. Mein neuerer Router (no name?) ermöglicht das aber schon (nach Bastelarbeit). Wichtig ist also die Errreichbarkeit über die externe IP-Adresse.

Vielleicht kann Urban oder Michael auch noch die Sciencenet-Erfahrungen dazu schildern. Da laufen ja ein paar mehr Rechner lokal auf einem Haufen :-)

DHT in und out sowie remote crawls sollten zumindest eine Grundauslastung der Rechner sicherstellen. Die wird auch bei einer Datenbank mit vielen Millionen Links irgendwann ausreichen.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Verteilte alte Boxen

Beitragvon liebel-lab » Mi Okt 22, 2008 4:57 pm

hm..nicht direkt....wir haben sciencenet bzw den freeworld rechner am kit den luxus gegeonnt jeweils eine eigene IP zu haben....(die auch noch weltweit sichtbar ist)...wir wollten halt so "realitaetsnah" wie moeglich sein....
sorry daher keine direkten erfahrungen mit ports und co...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Verteilte alte Boxen

Beitragvon bluumi » Do Okt 23, 2008 5:22 pm

Danke für die Antwort.
Ich werd mal sehen ob ich mit ein wenig Zeit und so an dem Gedankenspiel weiter arbeiten kann.
Ein Gedanke war, die Seedliste zu manipulieren und da nur meinen ausgangs Peer und die peers bei mir einzutragen, aber ich sah, das File ist geschützt :mrgreen:
Mein nächster Gedanke war, dass die Peer "hinter der Wall" einfach crawlen und dann via IndexTransfer diesen auf den Master "hochladen", aber ich sah, dass diese Funktion unglaublich lahm ist. (Wohl an Perf. Settings zu schrauben) und sie auch nicht recht läuft, wenn die Peers nicht in die "FreeWorld" sehen können.
...
Hat ja alles noch Entwicklungsmöglichkeiten/Zeit, Yacy wurde ja auch nicht an einem Tag gebaut ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Verteilte alte Boxen

Beitragvon bluumi(work) » Di Nov 04, 2008 6:31 pm

Kleine "zwischenfrage" :-D
wie zwingt man Yacy eine neue "ID" zu generieren.. Ich habe den Peer "222.KSBA ( wHPju_UIg30p )" in ein Image gebrannt und daraus die Peers 11.KSBA und 12.KSBA gemacht.. Nun fürchte ich, dass diese jedoch noch immer denselben Hash haben ... jedenfalls findet 11.KSBA seinen bruder 12.KSBA nicht und andersrum. Beide sind aber senior und sehen sich selbst im yacy netz :-D
Jedenfalls verstehe ich den Robinson Modus so, dass sie sich auch finden sollten :)
[quote=12.KSBA.yacy]W 2008/11/04 19:29:30 YACY cluster peer '11.KSBA.yacy' was not found.
W 2008/11/04 19:29:30 YACY cluster peer '13.KSBA.yacy' was not found.[/quote]
bluumi(work)
 

Re: Verteilte alte Boxen

Beitragvon DanielR » Di Nov 04, 2008 6:36 pm

<yacy>/DATA/INDEX/freeworld/NETWORK/mySeed.txt löschen sollte reichen (bei nicht freeworld Netzwerkdefintion entsprechend anpassen). Die wird dann beim Start erstellt.
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Verteilte alte Boxen

Beitragvon Lotus » Di Nov 04, 2008 8:47 pm

Aus einer Installation zwei machen macht überhaupt keinen Sinn (im freeworld). Der eine Peer hat dann Daten die nicht zu ihm Passen und der andere Peer bekommt die Daten doppelt zugespielt.
Wenn es um die Einstellungen geht, kopiere einfach den DATA/SETTINGS Ordner in eine Frische Installation.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Verteilte alte Boxen

Beitragvon Low012 » Mi Nov 05, 2008 1:45 pm

Lotus hat geschrieben:Aus einer Installation zwei machen macht überhaupt keinen Sinn (im freeworld). Der eine Peer hat dann Daten die nicht zu ihm Passen und der andere Peer bekommt die Daten doppelt zugespielt.

Das gilt aber nur, wenn du davon ausgehst, dass der Ursprungspeer zum Großteil Daten in seiner DB hat, die zu ihm passen. Wenn man mit seinem Peer bisher sehr viel gecrawlt hat, könnte ich mir vorstellen, dass diese Annahme nicht zutrifft und zwei Peers etwas effizienter arbeiten, wenn die Daten hauptsächlich an andere Peers verteilt werden müssen. Wie das Verhältnis der passenden <-> unpassenden Wörter ist, kann man aber nicht ohne größeren Aufwand feststellen, oder?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Verteilte alte Boxen

Beitragvon Lotus » Mi Nov 05, 2008 5:01 pm

Wenn überwiegend gecrawlt wird, kann ich mir auch vorstellen, dass sich viele unpassende Daten auf dem Peer befinden. Damit diese aber schneller (das verstehe ich unter effizient) verteilt werden, muss auch der Index auf die zwei neuen Peers aufgeteilt werden. Ansonsten werden die gleichen Daten doppelt an die Peers gesendet. Wenn sie die Daten schon haben wird natürlich weniger transferiert. Aber der Verteil-Zyklus war verschwendete Zeit. Theoretisch würden dann beide Peers nur 50% sinnvolle Zyklen fahren. Entspricht mit vernachlässigter Transferzeit 2 mal 50% verschwendete Zeit.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Verteilte alte Boxen

Beitragvon bluumi » Mi Nov 05, 2008 5:35 pm

:mrgreen:

Also das Ziel des Clonens war schlicht und einfach eine komplette WINDOWS installation, inkusive konfiguriertem (fast leerem) Yacy Peer in ähm ~10Min zu bekommen. Das Verzeichnis "plasmaDB" habe ich dabei gelöscht, wusste aber nicht wo die Peer ID sich versteckt.
Dabei wollte ich aus den (im moment 2) einen RobinsonCluster bauen, der untereinander sehr schnell die Jobs austauscht.. meine Erkenntnis war dann aber alles andere als erfreulich ... Im Cluster haben die zwei fast nichts gemacht, in anbindung meiner anderen 3 Peers noch immer fast nichts. Und wieder gänzlich im P2P Betrieb deutlich mehr. Ich hätte erwartet, dass die zwei untereinander schneller arbeiten als im P2P modus.
Einziger Vorteil im Robinson war dass sie das (remote)crawlen was ich haben will. Aber weniger "rum-ideln" ist mir da wichtiger.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast