DHT-Verteilung

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

DHT-Verteilung

Beitragvon thq » Di Jan 20, 2009 10:18 am

Kann es sein das YaCy immer wieder die gleichen Daten hin und her schickt ?

Habe jetzt keine genauen Daten, habe aber schon oft gesehen das mein Peer Axxxxxxxxxxx selektiert und kurze Zeit später wieder neue/vielleicht auch die gleichen Daten aus diesem Bereich zugeschickt bekommt.

Täuscht das oder überschneiden sich die Bereiche so stark ? Wenn sich die Bereiche überschneiden kann man es nicht so machen das YaCy in den Grenzbereichen erst sucht wenn er in den anderen gar nichts findet ?

Ich finde auch diese zufällige suche nach neuen Daten zum verschicken nicht so toll, YaCy braucht bei mir des öfteren mehrere Versuche um wieder neue Daten zu selektieren. Kann man das nicht einfach von Anfang bis Ende abgrasen, früher oder später sind die Puffer von den Peers voll, dann macht YaCy ein großeren Sprung und macht da weiter, am Ende angekommen fängt YaCy wieder von vorne an.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Di Jan 20, 2009 4:22 pm

an die Stelle der Selektion soll eine vorab-Speicherung der Daten in Segmente treten. Ich bin da seit einiger Zeit am Implementieren, aber das brauch noch seine Zeit. Ein Schritt der vorher gemacht werden muss, ist die Cache-Dump Speicherung, und dann das Mergen der Dumps. Später das Splitten der Dumps in den vertikale Index. Und daraus dann eine Splittung in Hash-Bereiche, aus denen dann nicht mehr selektiert werden muss, sondern wo man dann ganze Files verschicken kann. Das ist aber noch ein weiter Weg.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon thq » Di Jan 20, 2009 5:16 pm

Hmmm, also wenn das noch bis zum Ende des Jahres dauert und man die jetzige Version leicht/schnell etwas verbessern könnte, würde ich das begrüßen.

Etwas die Grenzen beim selektieren verschieben würde vielleicht schon reichen, damit ist der Peer-Bereich zwar größer, aber es werden weniger Daten hin und her kopiert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon dulcedo » Mi Jan 21, 2009 4:40 am

Ich finde die Abläufe im Hintergrund sehr interessant, ich würde die Zusammenhänge gern besser verstehen.
Java kann ich zwar lesen aber für diese Komplexität reicht es lange nicht, ist das irgendwo ausserhalb der Quellen, zumindest für Entwickler dokumentiert?

Sorry wenn ich so reinplatze, aber mir geht es um optimierte Einstellungen; um einen reinen DHT-Peer mit ein paar wenigen kleinen, eigenen automatischen ReCrawls unbeaufsichtigt laufen zulassen.
Anstöpseln, Koniguration drauf und vergessen.
Dazu muss ich aber natürlich DHT sinnvoll eingrenzen, hauptsächlich den Festplattenspeicher.
Einen langsamen Peer für resourcenschonenden Dauerbetrieb zu konfigurieren ist relativ einfach, nur der Plattenplatz eben (noch) nicht.
Dann wäre YaCy von den Systemanforderungen her gesehen perfekt.

Deshalb die Frage, kann mir da schon selbst Gedanken machen, wenn ich die Abläufe verstehe, welche DHT Daten wann für den Gesamtindex wichtig sind (dauerhaft zu speichern).
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: DHT-Verteilung

Beitragvon thq » Di Jan 27, 2009 1:44 pm

Noch was hierzu, habe vor kurzen collection.04.0028.00.00.kca + collection.04.0028.01.00.kca verloren, trotzdem ist mein Peer fast immer dabei Wörter zu selektieren die genau aus diesen Dateien kommen, heißt die wurden alle unnötig zu meinen Peer geschickt. Also das sollte wirklich nicht passieren, entweder es gibt passende Peers oder es gibt sie nicht, so verursacht das nur unnötig Traffic.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Di Feb 10, 2009 1:17 am

eine ganz neue DHT-Verteilung gibts es nun in der SVN 5586. Um die Selektion von schon verschickten RWIs zu unterbinden, wird momentan aus den Collections selektiert, nicht aus dem RAM. Das RAM wir bei einem 'leergelaufenen' Peer wahrscheinlich nur die per DHT zugesendeten Daten enthalten, daher ist es momentan unklug aus dem RAM zu selektieren. Das ist anders wenn auch ein Crawl läuft, dann ist das RAM besser. Die Unterscheidung werde ich noch einbauen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon thq » So Mär 01, 2009 5:14 pm

Das passiert immer noch das die Daten hin und her kopiert werden.

Mein Peer hatte keine Daten über YaCy. Nach der Umstellung auf die neue DHT-Verteilung bekam mein Peer dann Daten über YaCy. Hatte dann mehrere Tage nur DHT-Out an. Danach hatte mein Peer wieder keine Daten von YaCy. Jetzt nachdem ich wieder DHT-In/Out an habe bekommt mein Peer wieder Daten über YaCy.

Also das finde ich nun wirklich nicht gut, entweder mein Peer ist dafür zuständig oder nicht.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Lotus » Mo Mär 02, 2009 3:09 pm

Ich habe das schon in die Bugs geschrieben:
viewtopic.php?p=13051#p13051
Den Titel "DHT defekt" wollte ich erst einmal sparen, aber so sieht es für mich aus.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: DHT-Verteilung

Beitragvon Lotus » Mi Mär 04, 2009 2:20 pm

Bei nur DHT-out bleiben mir 95 Worte bei 3.6Mio URLs. Bei Stichproben ergibt sich, dass etwas über 1 URL pro Wort zugeordnet ist.
Bei 42 Mio Worten und gleichmäßiger (einfacher) Verteilung müssten wir also 442.000 Peers haben.

Update: nach Wiedereinschalten von DHT-in habe ich sogar kurzzeitig 90 Worte. Anscheinend tendiert die Zuständigkeit meines Peers gegen null.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: DHT-Verteilung

Beitragvon Lilirasa » Mi Mär 04, 2009 6:09 pm

Mein Peer Swissyacy ist auch plötzlich von ~13Mio Words auf 800'000 abgesackt?! URLs sind jedoch stabil steigend bei ~34Mio...
An der Konfiguration habe ich in letzter Zeit nichts geändert...
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: DHT-Verteilung

Beitragvon thq » Mi Mär 04, 2009 6:27 pm

URLs die einmal da sind werden ja auch nicht mehr gelöscht. Deswegen stört mich es auch das ich Wörter zugeschickt bekomme die ich später wieder verschicke, dadurch sammelt mein Peer womöglich URLs die ich eigentlich gar nicht brauche. Ich bin immer noch der Meinung das wir für die URLs auch ein DHT-Netz brauchen.

Das die Wörter stärker fallen kann aber auch damit zusammen hängen das die Wörter schneller verteilt werden. Vor der Umstellung zum neuen DHT war das immer zu langsam und konnte nur wachsen.

Von ~13Mio Wörter auf 800'000 deutet aber eher darauf hin das mindestens eine *.kca Datei gelöscht wurde.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon PCA42 » Mi Mär 04, 2009 6:47 pm

Man muss ja nicht gleich dir URLs per DHT verteilen. Hier reicht vielleicht schon ein Zähler, der URLs, die nicht mehr benötigt werden, entsorgt.

Bei einer Verteilung per DHT werden schon mehrere Peers im ersten Durchgang nach passenden URL-Hashes abgefragt. Wenn dann aber im zweiten Durchgang 10x (Anzahl der Ergebnisse) so viele Peers nach den URLs abgefragt werden, bringt das längere Suchzeiten mit.

Gleichzeitg muss man aber auf der anderen Seite natürlich sehen, dass kleinere Datenmengen auch schneller durchsucht werden und die Speicher-Anforderungen für den Betrieb der Peers sinken. Was vielleicht wieder mehr glückliche Peer-Betreiber hinzubringt, die nicht nach einer Woche mit OOMs von Yacy konfrontiert werden und so länger am Ball bleiben.

Wie heisst das so schön: das ist ein weites Feld....
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: DHT-Verteilung

Beitragvon thq » Mi Mär 04, 2009 7:02 pm

Wie Du schon schreibst werden die Suchzeiten (vielleicht merklich) steigen. Das Internet wird aber immer schneller von daher finde ich es besser jetzt schon damit anzufangen was stabiles aufzubauen. Wir können uns es nicht leisten bei jeden Peer die URLs unendlich wachsen zu lassen, einfach die ältesten URLs zu löschen ist keine gute Lösung weil es immer noch genug statische URLs gibt die auch in 10 Jahren noch gültig sind. Und ein Zähler verursacht mehr IO und/oder ist schnell ungenau, ein crash...

Active (connected Senior and Principal) 87 1.528.698.863 Links

Das währe schön, ich gehe aber davon aus das es nur um die 550.000.000 oder noch weniger sind. Von daher könnte man durch DHT die Last der einzelnen Peers stark verringern.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Lilirasa » Mi Mär 04, 2009 10:42 pm

thq hat geschrieben:Von ~13Mio Wörter auf 800'000 deutet aber eher darauf hin das mindestens eine *.kca Datei gelöscht wurde.


Kann nicht sein, alle 8 KCA Dateien noch da, hab acuh nix von Hand dran gebastelt...
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: DHT-Verteilung

Beitragvon thq » Mi Mär 04, 2009 10:57 pm

Lilirasa hat geschrieben:
thq hat geschrieben:Von ~13Mio Wörter auf 800'000 deutet aber eher darauf hin das mindestens eine *.kca Datei gelöscht wurde.
Kann nicht sein, alle 8 KCA Dateien noch da, hab acuh nix von Hand dran gebastelt...
YaCy erstellt ja auch sofort wieder neue.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Mi Mär 04, 2009 11:07 pm

aufgrund der 16-fachen Partitionierung der Wort-DHT nach URLs haben wir bei den wenigen DHT-Empfängern de-facto fast eine URL-DHT. Wenn die Anzahl der Wörter pro Peer abnehmen, ist das ein gutes Zeichen, denn die DHT will ja Wörter auf Peers konzentrieren! Hierbei werden nur jetzt mit der vertikalen DHT auch noch URLs konzentriert. Die nehmen natürlich nicht ab sondern zu.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon thq » Do Mär 05, 2009 1:28 am

Damit ich das richtig verstehe, du gehst davon aus das die URLs im Gegensatz zu vorher jetzt bei jeden Peer noch mehr werden ? Das ist ja nun wirklich nicht das was YaCy braucht, die URLs und wenn es auch nur die Indexe davon sind, sind ja das Übel wenn es um den Speicherverbrauch geht. Mein Peer hat diesen Monat schon wieder 1.677.111 URLs angesammelt, wenn das so weiter geht muss ich wieder DHT-In vor dem Monatsende ausschalten.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Do Mär 05, 2009 10:23 am

was heisst denn 'im Gegensatz'? Bei der alten DHT wurden URLs verschickt, in der neuen auch. Je nach Größe der Partition weniger. Bei 16-facher Partition, so wie es momentan ist, ein sechzehntel der vorherigen Menge der URLs - theoretisch. Ich mache mal ein paar Folien. Das Thema ist so komplex, dass man das nicht in ein paar Zeilen erklären kann.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon thq » Do Mär 05, 2009 10:42 am

Ja, das währe gut und Mist, hatte den anderen Beitrag schon wieder vergessen. Aber ist es nicht besser das ins Wiki zu schreiben ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Do Mär 05, 2009 11:01 am

dazu braucht es Grafiken, da muss ich eh Keynote anwerfen
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon thq » Fr Mär 06, 2009 11:04 am

Grafiken kann man aber auch im Wiki einfügen ;)

Jetzt mal einfach gedacht. Du sprichst von 16 Partitionen, das wurde heißen das bei 2.000.000.000 URLs jeder Peer 125.000.000 bekommt, das sind eindeutig zu viel, selbst mit 32 Partitionen sind es dann immer noch 62.500.000, was ich immer noch für zuviel halte. Mit 64 Partitionen und 31.250.000 könnte man dann YaCy auch mit weniger Speicher als 1GB im freeworld benutzen.

Ich hoffe mal, das deine Folien mir was anderes zeigen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Fr Mär 06, 2009 11:40 am

falsch gerechnet: die 2 Milliarden, von denen du ausgehst haben wir nicht. Wir haben rund 1 Milliarde in der Statistik, die haben wir nur, weil so viele doppelt sind (weil die Partitionierung nicht da war). Hätten wir schon länger 16 Partitionen, dann wären es eben nicht so viel. Du musst von viel kleineren Zahlen ausgehen.

thq hat geschrieben:Ich hoffe mal, das deine Folien mir was anderes zeigen.

bitte nicht so überheblich, das stinkt mir inzwischen. Deine Postings haben oft diesen Tonfall.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: DHT-Verteilung

Beitragvon thq » Fr Mär 06, 2009 12:40 pm

Orbiter hat geschrieben:
thq hat geschrieben:Ich hoffe mal, das deine Folien mir was anderes zeigen.

bitte nicht so überheblich, das stinkt mir inzwischen. Deine Postings haben oft diesen Tonfall.
Hey Hey, sorry wenn das so rüber kommt, aber ich habe nur geschrieben das ich hoffe (für mich) das deine Folien meine Sicht wiederlegen, mehr nicht. Wenn dem nicht so ist dann haben wir halt verschiedene Meinungen, na und, sowas kommt halt vor, also, Keep Cool, war nichts Persönliches, warum auch !?

Und das mit dem 2 Milliarden, mir ist schon klar das wir nicht so viele haben, aber YaCy soll ja auch wachsen, von daher ...
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: DHT-Verteilung

Beitragvon Orbiter » Di Mär 10, 2009 2:49 pm

da das Thema sich an dieser Stelle durch das nächste Posting geändert hatte, habe ich diese abgetrennt und in einen eigenen Thread gestellt:
viewtopic.php?f=5&t=1917&hilit=

das gleiche Topic wie in diesem Thread wurde in einem anderen Thread besprochen:
viewtopic.php?f=6&t=1841&hilit=

Daher close ich diesen Thread. Bitte die beiden o.g. Threads weiter benutzten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast