URL-Verteilung nach Peerhash

Ideen und Vorschläge sind willkommen.

URL-Verteilung nach Peerhash

Beitragvon PCA42 » Mo Dez 17, 2007 9:40 pm

Wie bereits in meinem letzten Post angedroht: meine Ideen zur Realisierung der URL-Verteilung. Grundsätzlich sprechen zwei wichtige Faktoren dafür:

1. der notwendige Speicherplatz auf den Peers wird reduziert
Bisher ist es so, dass durch die geringe Anzahl an Peers die URLs auf fast jeden Peer verteilt werden. Auf einem reinen DHT-Peer ergeben sich mit der Zeit gute Verhältnisse von URL zu Wort von ca. 3:1 und ggf. sogar günstiger. Die kann ich auch an meinen Peers beobachten. Wird das Netz jedoch größer, wird dieses Verhältnis sich in Richtung 1:1 und schlechter bewegen, da für jedes Entrie einer Web-Seite die URL mit übertragen werden muss. Das bedeutet natürlich, dass die Peers viel Speicher benötigen, um dieses URLs zu verwalten (FlexTabelle). Deshalb wäre es allein aus diesem Grund sinnvoll, die URLs von den Worten zu lösen.

2. benötigte Bandbreite für DHT
Wenn ich natürlich für jeden Entrie, den ich verteile auch noch die URL mit verteilen muss, bedeutet das bei einem größerem Netz aus mehr Traffic. Und als DLS-User ist die Output-Bandbreite eine Achillesverse. Klar, durch die Komprimierung kann hier einiges aufgefangen werden. Aber wenn ich die Urls statt 1500x (500 entries x 3er Redundanz) nur 5 oder 10fach Redundand ablegen habe ich massig Bandbreite gespart. Und wenn die Transfers schneller laufen, kann ich auch schneller die geparsten Daten verteilen. Auch würden die Peers bei der Verarbeitung der Datentransfers entlastet, da die URLs nicht gecheckt werden müssten.

Wo Sonnenschein ist, ist natürlich auch Schatten. Und das ist die Performance bei Suchanfragen. Diese müssen dann in zwei Stufen erfolgen, nämlich zunächst die Ermittlung der URL-Hashes (geht sehr schnell) und dann der Klartext-URL. Da wird es dann böse.

Für die Ermittlung der zutreffenden URL müssen bei 10 Suchergebnissen mal mindestens 30 Anfragen losgejagt werden. Und das ist denke ich noch verdammt optimistisch. Dennoch sollte das zu machen sein. Grund: Die Peers halten weniger URLs. Es verkürzt sich also allein dort schon das Raussuchen.

Weiterhin würde ich die Anfragen nach Priorität staffeln: normalerweise sollte nach einer Suche 10 Ergebnisse angeboten werden. Wenn man auf die nächsten 10 Blättern kann, sollten diese Links auch schon geladen sein. Diese Anfrage kann direkt mit der ersten Suche mit einer geringeren Priorität ausgelöst werden. Die Peers, die die URLs liefern, können so die Anfragen evtl. sortieren, wenn viel Traffic vorhanden ist.

Der zweite Ansatz ist reine Spekulation was die Funktionsfähigkeit angeht: man kann die Suchanfragen nach den URLs auf UDP umstellen. Die sollte die Transferzeiten erheblich verkürzen. Hier wäre dann aber eine erhöhte Redundanz notwendig. Leider hab ich auch bei längerem Suchen im Internet keine Statistik gefunden, die mal die generelle Zuverlässigkeit von UDP dargestellt. Aber für diese Zwecke sollte es ausreichend sein. Die Datenpakete sind alle schön handlich, so dass hier keine Flußkontrolle etc. notwendig wäre.

Kleines Bonbon am Rande: wenn die URLs auf bestimmten Peers liegen, könnte dort vielleicht auch gleich ein passendes Snippet mit gelagert werden, damit kann man dann wieder Zeit sparen.... :shock:
PCA42
 

Re: URL-Verteilung nach Peerhash

Beitragvon Orbiter » Mo Dez 17, 2007 10:16 pm

snippets sind suchanfragenbezogen, das geht also nicht.

auch schmerzhaft: wenn DHT-Targets verschwinden killt das weit mehr Daten als wenn einzelne Wörter einer Seite beim Peer-miss fehlen.

Auch wenn ein URL-DHT aus Gründen der Skalierung Sinn macht überwiegen aus meiner Sicht doch die Nachteile beim Use Case des öffentlichen/instabilen Netz. Wenn das Netz aber stabil ist, d.h. die Verfügbarkeit ist sichergestellt, sieht das schon ganz anders aus. Dann würde die URL-DHT ziemlich gute chancen haben das optimale Modell herzugeben. Aber trotzdem darf man den zusätzlichen Netztraffic nicht übersehen, und solange die Suchzeite aucht nur minimal über 'sofort' liegen bin ich eher geneigt kein URL-DHT zu machen.

Einen Versuch wäre es trozdem mal wert zu sehen wie ein reines Abfragen einer einzelnen URL sich zeitlich verhält. Testumfeld zu bauen wäre gar nicht so schwer.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Verteilung nach Peerhash

Beitragvon PCA42 » Di Dez 18, 2007 5:56 am

Um die Verfügbarkeit der URLs zu sichern kann meinetwegen auch eine Redundanz von 10 her. Ist immer noch besser als derzeit 80 oder später 500. Bei einem Versuch wäre ich selbstverständlich behilftlich und würde ggf. einen speziell angepassten Peer laufen lassen.
PCA42
 

Re: URL-Verteilung nach Peerhash

Beitragvon Orbiter » Di Dez 18, 2007 1:44 pm

das mir der Redundanz stimmt allerdings. Mal gucken was ich dazu über die Feiertage zusammenbacken kann.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Verteilung nach Peerhash

Beitragvon Lotus » Di Dez 18, 2007 5:56 pm

Den einzigen Nachteil sehe ich hier in der verlängerten Suchzeit um an die URLs zu kommen.
Verkürzt werden könnte dies, wenn der Wörter-Peer beim Anwort-senden parallel Aufträge an die Link-Peers vergibt, die Links an den Such-Peer zu schicken. Über eine zufällige Such-Referenznummer wäre das bestimmt sicher zu realisieren.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: URL-Verteilung nach Peerhash

Beitragvon PCA42 » Di Dez 18, 2007 6:01 pm

Die Idee gefiel mir auf den ersten Blick. Da jedoch das Aber: wenn jeder der angesprochenen 3 Peers (Bsp.) 10 verschiedene Antworten liefert, dann haben wir schon 30 URLs. Und wenn diese wieder bei je 3 Peers abgefragt werden, haben wir schon 90 Anfragen. Von diesen sind jedoch 60 potenziell umsonst, weil nur 10 Ergebnisse benötigt werden. Oder man hätte dann schon Ergebnisse zum Blättern ;)
PCA42
 

Re: URL-Verteilung nach Peerhash

Beitragvon Orbiter » Di Dez 18, 2007 6:14 pm

und snippet-fetch kommt ja auch noch oben drauf. viel holz. und in einem kleinen netz wo gar kein dht ist überflüssig.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL-Verteilung nach Peerhash

Beitragvon PCA42 » Mo Jan 21, 2008 9:47 pm

Orbiter hat geschrieben:Mal gucken was ich dazu über die Feiertage zusammenbacken kann.

Ich möchte das Thema mal in Erinnerung rufen. Wie sieht es hier aus?
PCA42
 

Re: URL-Verteilung nach Peerhash

Beitragvon Orbiter » Mo Jan 21, 2008 9:57 pm

zeitlich schlecht, und zu viele andere Prioritäten...
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste