DHT-Verteilung

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

DHT-Verteilung

Beitragvon gaston » Do Sep 20, 2012 4:10 pm

Funktioniert das richtig, mir ist aufgefallen das man Wörter zugeschickt bekommt die überhaupt nicht in der nähe des Peerhash liegen. Zur Zeit sieht es eher so aus als ob mal alles bekommt, was ja eigentlich nicht so sein sollte, oder doch?
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: DHT-Verteilung

Beitragvon Lotus » Do Sep 20, 2012 4:58 pm

Es wird alles angenommen, was man geschickt bekommt.
Der Versendende Peer macht ein Ranking der best-passenden Peers. Wenn ein Peer nicht antwortet, wird der nächst best passende ausgewählt. Es wird an 3 best-passende Peers versendet.

Nun zur Beobachtung:
Es wird auch "partitioniert". Dazu werden je Wort die Links aufgeteilt.
Das geht folgendermaßen: der Ziel-Hash besteht aus x Buchstaben des Link-Hashes und (n-x) Buchstaben des Wort Hashes. x: Partitionierung in 2^x Teile. n: Länge des Hashes.

Deshalb hast du auch Wort-Hashes, deren Anfang nicht in der Nähe deines Peer-Hashes liegt.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: DHT-Verteilung

Beitragvon gaston » Do Sep 20, 2012 5:18 pm

Danke für die Antwort.

Ich finde aber das der einzelne Peer zu viele "falsch" Wörter zugeschickt bekommt wenn man bedenkt das das verteilen viel länger dauert als das sammeln. So ist es nicht verwunderlich das einige Peers schnell ihr Limit finden. Ich habe auch schon beobachtet das gerade zugeschickte Wörter kurze Zeit später auch wieder verschickt werden. Das ist doch eine unnötige Belastung des Netzes, oder nicht?

Weniger von diesen hin und her schieben der Daten würde vielleicht helfen das Benutzern nicht so schnell die Luft ausgeht.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: DHT-Verteilung

Beitragvon Lotus » Do Sep 20, 2012 7:43 pm

Ja, dieses Verschicken der Wörter habe ich früher auch schon einmal beobachtet und habe nachgeforscht. So ein Versende-Zyklus wird immer dann vorzeitig abgebrochen, wenn der eigene Peer an der zu versendenden Stelle Steht. Beispiel: es wurden A B C zum versenden ausgewählt (in dieser Reihenfolge). B ist der eigene Peer. Dann wird nur an A versendet. Hinzu kommt, dass die Auswahl der zu versendenden Wörter zufällig erfolgt. Es wird immer ein Starthash gebildet, ab dem selektiert wird. Das führt dazu, dass dies vor allem bei kleinem Datenbestand beobachtbar ist. Im Endeffekt ist es sogar ganz gut, weil so die Redundanz bei wechselnden Teilnehmern erhöht wird.
Der Versand läuft übrigens zweistufig ab. Es werden nur Links übertragen, die noch nicht bekannt sind. Diese werden vom empfangenden Peer angefordert.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: DHT-Verteilung

Beitragvon gaston » Do Sep 20, 2012 8:16 pm

Ob das wirklich so gut ist!? Wenn ein Peer mehr Daten bekommt als er verteilen kann, dann werden irgendwann die wirklich neuen Daten nicht mehr verteilt, oder nur sehr sehr langsam, wie es schon des öfteren hier von anderen beobachtet wurde.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Di Okt 16, 2012 7:50 pm

es ist schwierig abzuschätzen wie sehr ein Peer in der Lage ist die Daten zu verteilen, mal abgesehen davon dass eine Nutzung dieses Wissens das DHT Modell nicht gerade einfacher macht (mir fällt dazu nichts ein wie man das abbilden soll).

Aber mal aus dem Kontext gerissen: ich sehe gerade vor, dass empfangene DHT-Daten nicht wieder in den RWIs gespeichert werden, wenn die dazu gehörigen Metadaten das Suchwort aus dem RWI-Chunk im Klartext beinhalten. Das ist eine Folge aus der Migration nach Solr, denn da wird ja auch im Klartext der Solr-Daten gesucht. Die in den RWIs nach dem Empfangen zu speichern wäre schlicht überflüssig. Ich traue mich aber noch nicht recht daran den schritt zu gehen...
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron