Verständnisfrage DHT/Robinson

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Verständnisfrage DHT/Robinson

Beitragvon itgrl » Fr Feb 27, 2009 8:19 am

Ich möchte folgendes realisieren: ein Cluster aus mehreren Peers, momentan erstmal einer, der einen handselektierten Index bietet, also selbst ercrawlt und ggf. Einträge gelöscht.
Also konfiguriere ich ihn 'no-remote-crawl', 'dht-in off', 'dht-out on', damit andere auch was von meinem Index haben, ich aber keine fremden URLs erhalte, Wörter wären egal.
Funktioniert auch soweit, bekomme meine Testsuchergebnisse auch über andere Peers.

Mein RWI aber wird stetig kleiner, momentan ca. 5 KWorte/h.
Was sind das für Worte die dann abwandern?
Weil ich kann mit meinem Peer ja nicht remote suchen, was auch garnicht erwünscht ist
Die Worte müssten dann ja meinem Suchindex fehlen?
itgrl
 
Beiträge: 58
Registriert: Do Feb 05, 2009 7:20 am

Re: Verständnisfrage DHT/Robinson

Beitragvon lulabad » Fr Feb 27, 2009 9:22 am

itgrl hat geschrieben:Also konfiguriere ich ihn 'no-remote-crawl', 'dht-in off', 'dht-out on', damit andere auch was von meinem Index haben, ich aber keine fremden URLs erhalte, Wörter wären egal.
Funktioniert auch soweit, bekomme meine Testsuchergebnisse auch über andere Peers.

Mein RWI aber wird stetig kleiner, momentan ca. 5 KWorte/h.
Was sind das für Worte die dann abwandern?

Du hast dht out angelassen. Wörter die erfolgreich verteilt wurden, werden local gelöscht. Das sind also die Wörter bei dir, die verschwinden.
Du solltest den Peer auf Robinson Mode und Public Peer stellen, dann wird nichts verteilt und die anderen können ihn trozdem durchsuchen.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Verständnisfrage DHT/Robinson

Beitragvon itgrl » Fr Feb 27, 2009 12:33 pm

Durchsuchen ist klar, aber mir geht es um das Sharing. In diesen Index dürfte recht viel Arbeit gesteckt werden, daher die Überlegung ihn freizugeben, alles andere wäre ja egoistisch, im Sinne des Konzepts.
Die einzelnen Peers sind nicht immer online. Unter den Cluster-Peers DHT in beide Richtungen. Um den Wegfall einzelner Rechner zu kompensieren.
Gibt es keine Möglichkeit woanders passende Index-Inhalte trotzem nach ausserhalb des Clusters zu exportieren zu lassen, als Kopie dann?
Sonst sehe ich den Sinn in einer Spezialisierung nicht, oder aber man installiert eine Art Gateway nach aussen, ein Peer mit "gemischtem" Index, der aber nur nach aussen verteilt, innerhalb des Clusters nicht. Das wohl aber noch schwerer machbar?
itgrl
 
Beiträge: 58
Registriert: Do Feb 05, 2009 7:20 am

Re: Verständnisfrage DHT/Robinson

Beitragvon ribbon » Fr Feb 27, 2009 12:35 pm

verteilte urls zu löschen ist quatsch. das sollte man sofort abschalten.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Verständnisfrage DHT/Robinson

Beitragvon Orbiter » Fr Feb 27, 2009 12:40 pm

der Sinn der Spezialisierung ist eben, dass du den Index der dort ist behältst. Robinson-Modus bedeutet nichts anderes als dass du den Index für dich alleine bearbeiten möchtest; du möchtest keine bekommen und du gibts Indexe nur im Kontext einer remote Suche ab, nicht aber durch eine Verteilung die ein Löschen bei dir zur folge hätte. DHT gibts keins, da es eine DHT nur in einer definierten Struktur (die Ringstruktur mit Positionsberechnung) geben kann.

In einem Cluster kannst du aber angeben: wenn ich auf diesem Peer suche, dann ziehe einen bestimmten anderen mit hinzu. Du machst bsp. 2 Robinson peers, und trägst bei einem den anderen als Clusterpeer mit ein. Dann kannst du auf den einem Suchen, und bekommst Ergebnisse von beiden. Nicht umgekehrt: der andere Robinson weiss das nicht und kann aber die gleiche Konfiguration vornehmen, so dass diese beiden Peers sich wechselseitig als Suchpeer ansehen. Einen DHT-Austausch darfst du das aber nicht nennen, weil dazu geziehlte Auswahl von Indexen _ohne_ eine Suche, versenden und lokales Löschen dazugehört.

Bei professionellen Suchlösungen macht man das auch so, man hat individuelle Indexierer, individuelle Such-Nodes und arrangiert diese in einem vom Index-Sizing abhängigen Konstellation: Suchreihen und Suchspalten. Man macht eine Matrix, wo eine Suchereihe eine Menge von Indizes enthält, auf die ein Dispatcher Dokumente verteilt. Ein dedizierter Suchknoten fragt dann bei einer Suche alle Index-Nodes einer Reihe simultan ab. Dadurch kann man mit der Menge der Daten skalieren. Eine weitere Reihe solcher Suchknoten macht man dann, wenn man mit der Performance skalieren möchte.

Mit YaCy kann man eine solche Konstellation von Such- und Indexierern nachbilden: man definiert eine Menge von Robinson-Peers, und einen 'Hauptpeer', der alle diese Peers einer 'Row' als Clusterpeer eingetragen hat. An diesem einem Peer kann man suchen, die Ergebnisse der Row werden dort konsolidiert. Bei einer weiteren Row definiert man eine Indexreplizierung, macht einen weiteren Haupt-Suchpeer dazu, und einen load balancer vor die beiden Haupt-Suchpeers. So könnte man YaCy als 'Enterprise-Search' anbieten. Das skaliert sehr gut.

Das Thema ist eigentlich so spannend, dass ich dazu mal Folien und einen Vortrag machen sollte.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verständnisfrage DHT/Robinson

Beitragvon ribbon » Fr Feb 27, 2009 5:08 pm

interessant; dann schlage ich vor, es Robinson-Cluster(-Modus) zu nennen und nicht Robinson-Peer(-Modus). Und sodann die Modi Robinson-Cluster und Robinson-Gateway bilden, wobei der Robinson-Gateway, DHT out hat, ohne die Urls zu löschen.
Ergo
verteilte urls zu löschen ist quatsch. das sollte man sofort abschalten.
.
Das wäre ja nur Unsinn, wenn der Robinsion-Gateway ein yacy peer ist, ist er aber nicht, daher muss sollte es den Robinson-Gateway schon geben..
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Verständnisfrage DHT/Robinson

Beitragvon Orbiter » Sa Feb 28, 2009 12:00 am

hört sich echt viel einfacher an
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verständnisfrage DHT/Robinson

Beitragvon itgrl » Sa Feb 28, 2009 10:14 am

ribbon hat geschrieben:interessant; dann schlage ich vor, es Robinson-Cluster(-Modus) zu nennen und nicht Robinson-Peer(-Modus). Und sodann die Modi Robinson-Cluster und Robinson-Gateway bilden, wobei der Robinson-Gateway, DHT out hat, ohne die Urls zu löschen.


Es fehlt eigentich dann nur noch die Moglichkeit DHT-out als Kopie, alles andere schon da.
Ich lasse gern die Zielgruppe illustrieren, vielleicht hiermal Blick draufwerfen, so ists gedacht.
Das dürfte genau das sein was ihr beide meint oder? Wäre perfekt.
Die Suchverbindung grüner Cluster-Peer zum roten Clusterpeer per Whitelist einzuschränken ist ja möglich?
itgrl
 
Beiträge: 58
Registriert: Do Feb 05, 2009 7:20 am

Re: Verständnisfrage DHT/Robinson

Beitragvon Orbiter » So Mär 01, 2009 11:01 am

Ironie verlass' mich nie.

DHT-versendete RWIs werden gelöscht, weil es einerseits momentan keine andere Möglichkeit gibt, ein Tracking für versendete/nicht versendete RWIs zu haben, und weil es aus Performancegründen blödsinn ist, in einem DHT-Verbund die versendeten RWIs zu behalten. Formal sollten RWIs, die versendet wurden, nie wieder bei einer Suche angefasst werden, bzw. ist das so wenn man die Menge der lokal gestarteten Suchanfragen mit den Anzahl der zu versendeten RWIs betrachtet (schätze ich auf 1:1000000). Ausserdem leidet die Gesamtperformance des Gesamtverbundes, da ja in der Summe viel mehr Daten zu verarbeiten sind.

Andererseites verstehe ich das Bedürfnis, das lokal angereicherte Daten auch weiterhin zur Verfügung stehen sollen. Die technische Realisierung ist aber schwierig. Es reicht nicht, einfach nur nicht zu löschen. Das würde in einem DHT-doppelversende-GAU enden. Statt dessen braucht man einen 2. Index, in den die zuvor gelöschten Indexe wieder eingepflegt werden. Das ist aber wieder mit mehr IO verbunden. Im Kontext mit den für die zukünftige Datenstruktur mit Index-Segmenten ist das aber möglich. Das hier wäre auch ein schöner 'Playground' für die neue Cell-Indexdatenstruktur. Wenn das Wiedereinpflegen der gelöschten RWIs in die Cell-Datenstruktur funktionieren sollte, kann man auch komplett auf Cell migrieren. Aber wie gesagt: das hier ist nicht eine Frage von einem schnellen 'schalt mal aus'. ribbon: Bevor man sowas so pauschal fordert, sollte man verstanden haben wie das ganze funktioniert.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Verständnisfrage DHT/Robinson

Beitragvon ribbon » Mo Mär 02, 2009 2:20 am

*mitschmunzel*
ich habe gar kein Problem, wenn meine gehaltene Datenbasis immer und immer wieder auch an neue, passende nodes im DHT verteilt wird. Gerne 3 x 3! Schmutzeffekte für den DHT halte ich für genauso eine Illusion wie einen Persilschein durch Exitus. Also: Löschen abstellen, Redundanz Forever!
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Verständnisfrage DHT/Robinson

Beitragvon itgrl » Mo Mär 02, 2009 12:59 pm

Redundanz natürlich gut, Nicht flüchtiger Speicher die am wenigsten knappe Ressource, kann aber auch verstehn wenn viele das nicht wollen, ist ja auch zumindest ein Aufrüstproblem.

Wenn ich nun aber einen völlig abgeschlossenen Cluster habe der lediglich über einen Peer Verbindung mit einem Peer des Hauptnetzes hat, dann können die beiden Peers ja auch untereinander ausmachen was vom grünen Bereich in den roten verteilt werden soll, und wenn es nur auf dem einzelnen Peer landet und nicht weiterverteilt wird.
Aber Orbiter du hast völlig recht, ich habe von der Materie nur soviel Ahnung dass ich es anwenden kann und es ansatzweise verstehe, ich möchte meinen langgehegten Wunsch erfüllen einen wirklichen Freiraum für Kinder andere 'unselbstständige' Personen abzustecken, und nicht einfach nur zu gestalten.
Per Proxy kann ich der Zielgruppe sogar eingeschränkt das Internet vorgaukeln, wichtig ist dass sie es im jeweiligen Alter nicht als störend empfinden wie z.b. eine reine Whiltelist.
Es werden schon eine Weile cytags von mir und einer Bekannten ausgewertet, alleine damit lässt sich so viel machen, und YaCy eben die datensichere Grundlage die momentan sonst niemand bietet.
Ich kann mir schon jetzt verschiedene Sicherheitslevels vorstellen die man einfach per Benutzer einstellt, wird dann auf dem entsprechenden Rechner gesucht kommt kein Kind auf die Idee den Proxy zu verbiegen, und wenn dann ist es auch clever genug um den Gefahren begegnen zu können. Alles andere macht in der Hinsicht keinerlei Sinn.
Solch einen Index dann für sich zu behalten, bzw. nur über lokale Peers erreichbar zu machen fände ich schade.
Whitelist-Suche kann ich auch über Google.

Es würde auch schon reichen wenn der "Hauptpeer" eines Clusters globale Suchen in beide Netze schnell genug beantwortet. Dann wäre zwar der Index des Clusters verloren, wenn abgeschaltet, aber das ja nicht das Problem der Allgemeinheit.

Da gibt es doch sicher auch andere Anwendungen ausserhalb meines Bereichs?
Kleiner schützenswerter Index den aber auch andere brauchen können: Ein Netzwerker besucht wohl selten Seiten über Kinderpädagogik, aber interessieren könnten sie ihn schon. Die Kochrezepte seiner Frau mich, wenn die aber grade mit zu vielen Res WoW spielt antwortet sein Peer nicht schnell genug, als Beispiel.

Oder das Sciencenet, wenn ich es richtig verstehe.
itgrl
 
Beiträge: 58
Registriert: Do Feb 05, 2009 7:20 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron