Distributed File System

Ideen und Vorschläge sind willkommen.

Distributed File System

Beitragvon Orbiter » Mi Jul 02, 2008 10:07 am

Im sciencenet gibt es den Bedarf eines netzweiten URL double-checks. Ich habe hin und her überlegt wie man das machen kann, auf keinen Fall macht es Sinn die LURL-DB als DHT zu realisieren, aber man könnte eine Link-Double-Check-DHT machen. D.h. eine DHT nur für die Properties
URL-Hash: Datum+Erzeuger
Für ein netzweites double-check in Freeworld würde das nicht gehen, da durch die Speicherung des Erzeuger ein Problem mit der Privatspähre ist. Daher müsste im freeworld die Property schlicht so aussehen:
URL-Hash: Datum

Man bräuchte also 2 verschiedene Mechanismen, 2 verschiedene Datenbanken und veschiedene Protokolle, oder zumindest diese parametrisierbar. Da mir das nicht gefallen hat (zu spezialisiert) kam ich nun auf die Idee, einfach eine generalisierte DHT-Datenbank zu machen, die man für die verschiedensten Zwecke nutzen kann, bis hin zur verteilten Speicherung von Dateien. Damit könnten dann sogar Releases verteilt werden, oder Dateien jeglicher Art. Durch die Aufspaltung einer großen Datei in mehrere Chunks wäre sogar eine Geschwindigkeitsoptimierung wie bei bittorrent möglich, und wir hätten eine Speichermöglichkeit wie beim Freenet Project. Und wir hätten damit eine Speicherlösung für cluster-computing wie es hadoop bietet.

Natürlich ist da die Frage ob wir das alles brauchen, oder ob ihr das wollt. Es sollte natürlich jeder einen Flag setzen können um sagen zu können das man nicht an bestimmten Speicherthemen teil haben möchte. Für mich steht es ziemlich fest das ich das für sciencenet bauen werde, aber es ist auch so dass ein URL-DHT für freeworld nicht so gut ist. Aber ggf. sehr ihr eine Verwendung des Distributed File System? Wie seht ihr das?
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Distributed File System

Beitragvon Lotus » Mi Jul 02, 2008 4:49 pm

Mir wäre der Missbrauch-Schutz wichtig. Da bei P2P nicht bestimmt werden kann, wer etwas einstellt, muss definiert werden, was eingestellt werden darf. Missbrauch wäre für mich die Verteilung von "Dateien" (spitzfindig ist alles irgendwie eine Datei). Das darf für mich auch nicht über einen Umweg durch Missbrauch der Datenstruktur der geplanten Datenbank möglich sein. D.h. der Dateninhalt muss streng definiert werden damit kein "Mist" untergeschoben werden kann.
Die "verschiedenen Zwecke" müssen also im Quelltext vorgegeben sein, damit die DB für keinen anderen Zweck benutzt werden kann. Für weitere Zwecke kann dann einfach eine neue Version rausgegeben werden.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Distributed File System

Beitragvon Orbiter » Mi Jul 02, 2008 8:03 pm

Es ist klar das ein Missbrauch nicht stattfinden darf. Ich hatte mir das so vorgestellt, das die Bezeichner der verteilten Datenbanken in der Netzdefinition festgelegt werden, und dann in sciencenet rein kommen, in freeworld aber eben nicht. In sciencenet ist das ja geschlossen, und daher kein Missbrauch möglich. In freeworld ist das Feature nicht freigeschaltet und somit gibts ebenfalls keinen Missbrauch. Aber es wäre schade ein solches Feature einfach versauern zu lassen, daher diese Rumspinnerrei oben was man damit eben so machen könnte.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Distributed File System

Beitragvon liebel-lab » Mi Jul 16, 2008 8:43 am

@Orbiter: Die Überlegungen finde ich super. und um das Ganze noch richtig tricky zu machen hier ein weiterer Punkt.

Wir haben nach einem Besuch der Kollegen in Strassburg endlich die erste grosse uni (ESBS), welche 1-2 Yacy maschinen in das sciencenet haengen will.
wir sind jetzt aber am zögern weil wir nicht genau wissen was die uns ins sciencenet einstellen :-) ....

Vorschlag: kann man davon ausgehen dass ein ganzer rechner (also nicht ein einzelenes file /Bruchteril etc) auf diesem als "trusted" "unworthy" deklariert werden kann?!
Soll heissen...ein neuer Rechner kommt ins sciencenet oder freeworld....und spezielle admins haben das recht/modus diesen Rechner zu "bannen" ...sofern dieser unfug macht...
also die Quantelung nicht auf fileebene sondern den ganzen rechner.....
@Freigabe: warum keinen tag fuer eine einzelne Datei? ...wenn diese von 3 admins (a la Wikipedia) als "unfug" deklariert wird..."verschwindet sie" ...oder eben ein peer muss sich dieses
"vertrauen file zu erstellen erst erarbeiten....( a la "warcraft" ..ab level 60 darf man :-) )
...vielleicht ist die Level geschichte gar nicht mal so dumm...

Vorteil: Freeworld: peers a la "blackhole" die nur schweinkram ins freeworld "pumpen" sind sicherlich auch nicht willkommen....
vorteil: sciencenet: wir haben jetzt gute karten mehr unis fuer sciencenet zu gewinnen, aber zögern einen release fertig zu machen, da ein peer der einmal "drin" ist..nur schwer wieder zu entfernen ist...(gar nicht?)
@DFS: ... definitiv eine feine sache .....

Soweit die ersten pre-Kaffee-Gedanken :-)

UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Distributed File System

Beitragvon Huppi » Mi Jul 16, 2008 4:31 pm

Wenn die Rechner im Sciencenet zusätzlich als Robinson-Cluster definiert wären, dann hätte man vollständige Kontrolle, wer "drin" ist. Macht aber die Administration dann sehr viel aufwändiger.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron