Anregung: mehr Dokumentation und Transparenz beim Datenfluß

Ereignisse, Vorschläge und Aktionen

Anregung: mehr Dokumentation und Transparenz beim Datenfluß

Beitragvon ignoramus » Mi Aug 22, 2007 1:32 pm

Hallo!

Seit einigen Tagen erst informiere ich mich über euer Projekt - und ich bin sehr angetan. Ich habe einen YaCy-Peer unter Debian eingerichtet und meine ersten Gehversuche hinter mir. Was mir als Neuling auffällt ist, dass es etwas undurchsichtig ist, was nun genau in meinen lokalen Index aufgenommen wird, was von meinem Index wann mit anderen Peers ausgetauscht wird etc. - also generell, wie die Datenflüsse zunächst in der Grundkonfiguration erfolgen. Im Wiki finden sich nur einige Ausführungen dazu, welche Seiten aus Datenschutzgründen nicht indexiert werden.

Ich bin kein Informatiker und vielleicht kann ich daher besser die Perspektive des DAUs einnehmen ;-) Soweit ich die Ziele des Projekts verstanden habe, soll YaCy sich auch an den Normalnutzer richten. In einer Zeit, in der Überwachung und Datensicherheit von vielen (hoffentlich) zunehmend kritisch gesehen wird, halte ich es für sehr wichtig, diesem Aspekt bei YaCy besondere Aufmerksamkeit zu widmen. Für einen YaCy-Beginner ist es sicher nicht notwendig, sofort eine allgemeinverständliche Dokumentation aller Features zu bekommen. Aber er möchte sicher eine kurze, einfache Erklärung, was YaCy in der Grundkonfiguration genau mit den Daten macht. Dies würde das Vertrauen in die Software erhöhen und man wäre motivert, YaCy auch dann laufen zu lassen, wenn man es selbst noch nicht 100% durchblickt hat - was beim Normalanwender auch wohl nie der Fall sein wird.

Vielleicht kann jemand hierzu einen kurzen Text schreiben. Ich würde es ja selbst tun... aber ich bin eben der Beginner, an den sich so ein Text richten würde. ;-)

Das soll nur eine Anregung eines Sympathisanten sein...

Beste Grüße und vielen Dank für dieses tolle Projekt!
ignoramus
ignoramus
 
Beiträge: 1
Registriert: Mi Aug 22, 2007 8:55 am

Re: Anregung: mehr Dokumentation und Transparenz beim Datenfluß

Beitragvon Orbiter » Mi Aug 22, 2007 2:33 pm

Was an Indexdaten in deinen Peer rein geht wird protokolliert, und findest du unter
http://localhost:8080/CrawlResults.html
Zugegebenermassen ist der Name der Seite dazu nicht besonders treffend.
Lass dich von der Grafik, die das ganze beschreiben soll nicht verwirren.
Es gibt halt verschiedenste Wege, wie Daten zu dir kommen, all diese Kanle siehst du im Submenü oben.
Eben durch eigenes Crawlen, DHT Transfer, globale Suche, Proxy-Benutzung etc.

Das Protokoll ist allerdings nur temporaer (mist meine Umlaute gehen nicht mehr seit meine Tochter ihr Flaeschchen darueber geleert hat), und geht bei restart verloren. Es soll ja kein Big-Brother-YaCy sein, sondern nur zeigen was laeuft.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Anregung: mehr Dokumentation und Transparenz beim Datenfluß

Beitragvon Bardioc » Di Aug 28, 2007 7:05 am

Meine Sicht der Dinge kurz zusammen gefasst.
In der Standardkonfiguration und wenn Du Dich akti also als Senior an YaCy beteiligst passiert folgendes:
Alle Seiten die Du durch Deinen Peer indizieren lässt werden erst ein mal analysiert. In der Datenbank Deines peers werden jetzt die Verknüpfungen zwischen den Worten und den URLs gespeichert.
Im nächsten Schritt wird on Deinem Peer versucht die gespeicherten Worte (die nur noch als Hash Wert, also quasi verschlüsselt, vorliegen) an andere Peers zu verteilen. Das passiert so das jeder Peer für einen bestimmten Bereich dieser Hash Werte verantwortlich ist. Aus Sicherheitsgründen, es gehen ja immer mal wieder Peers offline, wird versucht das wort an mindestens drei andere Peers abzugeben. wenn die Abgabe erfolgreich war sollte der Hash Wert aus Deiner Datenbank entfernt werden.
Auf die selbe Art kommt auch Dein Peer zu neuen Worten.

Das schöne an diesem System ist das automatisch Sicherungskopien der Arbeitsergebnisse angelegt werden und am Ende niemand mehr sagen kann welche Seiten on welchem Peer indiziert worden sind.

:!: Auf der anderen Seite:
Wenn sensible Daten indiziert werden sollen (z.B. das Firmennetzwerk) darf der Peer auf keinen Fall in der Standardkonfiguration (auch nicht als Junior) betrieben werden da ja sonst die Ergebnisse verteil würden. Für diesen Fall empfielt sich eine Konfiguration als Robinson Peer.


Ich hoffe dieser Text war jetzt kurz genug und trotzdem anschaulich.
Gruß Bardioc
Bardioc
 
Beiträge: 58
Registriert: Do Jun 28, 2007 5:07 am
Wohnort: Riedstadt


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast