Sinn von Robinson-Netzen

Ereignisse, Vorschläge und Aktionen

Sinn von Robinson-Netzen

Beitragvon hendi » Do Jun 19, 2008 7:40 pm

Ich hatte vor einiger Zeit einen Themenpeer "Elektrotechnik" ins Netz gesetzt. Um es kurz zu machen: der kommt bald wieder.

Was mich dabei jedoch stark gestört hat war, dass er alleine war, ein Robinson-Peer, der kaum genutzt wurde. Schließlich sucht niemand nach "Elektrotechnik Linienladung", sondern nur nach "Linienladung".

Ich würde daher folgendes vorschlagen und zur Diskussion freigeben:

1. Robinson-Peers verteilen ihre Daten (die laut ihrem DHT-Hash nicht zu ihnen passen) per DHT wie üblich, aber OHNE die Daten bei sich zu löschen. Damit nichts mehrfach übertragen ist, wird zu jedem Datum gespeichert, dass es per DHT übertragen wurde. Vielleicht einfach den Timestamp speichern, damit man ein Datum nach einer gewissen Zeit erneut übertragen kann: Wenn alle Daten per DHT übertragen wurde, fange beim Datum an, dass vor längster Zeit übertragen wurde, und übertrage es erneut. So gehen die Daten nicht verloren.

2. (Ist vielleicht schon so) Robinson-Peers werden bei einer Suche auf jeden Fall gefragt, wenn sie per DHT ein Wort haben sollten, unr nicht nur, wenn explizit auf ihnen gesucht wird oder einer ihrer Tags bei den Suchworten vorkommt.

3. Ein Auswahlfeld auf der Suchseite von Robinson-Peers, mit Auswahlmöglichkeit: Nur in diesem Netz suchen / Im ganzen Netz suchen

4. Robinson-Peers verschicken ja ihre Tags per DHT an das gesamte Netz. Robinson-Peers, die zu einem gemeinsam Netz gehören (bspw. ET1 und ET2 zum Netz "Elektrotechnik") senden auch ihr Netz per DHT. Auf der Suchseite aller Peers nun ein Auswahlfeld ähnlich wie unter 3., auf dem standardmäßig ausgewählt ist "Im ganzen Netz suchen", das aber auch alle Robinson-Netze ("Elektrotechnik", "Motorräder", ...) zur Auswahl anbietet.

So, das waren meine Vorschläge, bin gespannt, was ihr davon haltet.

(Okay, genau genommen sind Punkt 1 und 2 sogar Wünsche, die mir sehr, sehr wichtig wären ;) )
hendi
 
Beiträge: 35
Registriert: Mi Jun 27, 2007 11:50 am

Re: Sinn von Robinson-Netzen

Beitragvon Low012 » Do Jun 19, 2008 10:12 pm

Hier noch eine Idee vom LinuxTag, die vielleicht auch halbwegs in diesen Thread passt:

Wenn die Themenpeers eine kurze Beschreibung ihres Inhaltes in den News mitschicken würden, würden auch andere Peers informiert werden, dass es zu einem bestimmten Thema einen Peer gibt. Der User könnte dann bei der Suche entscheiden, ob er einen bestimmten Robinson-Peer in die Suche einbinden möchte. Das Ganze könnte z.B. so aussehen wie bei metager.de, wo man ja auch verschiedene Suchquellen wählen kann.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Sinn von Robinson-Netzen

Beitragvon datengrab » Do Jun 19, 2008 10:27 pm

Gute Idee! Momentan kann man ja nur Stichworte zu dem Peer angeben. Da hat man das Problem, das wenn alle Stichworte zutreffen müssen um in die Suche einbezogen zu werden, man wahrscheinlich nie befragt wird. Auf der anderen Seite, wenn eines der Stichworte reicht, wird man mit viel zu viel Anfragen überschüttet die mit dem Thema des Peers nichts zu tun haben.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Sinn von Robinson-Netzen

Beitragvon Orbiter » Fr Jun 20, 2008 10:39 am

zu 1)
dieser Wunsch liegt schon seit sehr langer Zeit vor, und wurde nur deswegen nicht realisiert weil man diese Sache mit Timestamp oder markieren nur sehr schwer machen kann (da muss man über die Indexe iterieren um etwas übertragenswertes zu finden und das ist bei millionen von Einträgen einfach nur falsch sowas zu machen. Wir gehen immer weiter in Richtung IO-Vermeidung, so etwas wäre ein ganz übler Knieschuss und ginge in die umgekehrte Richtung) und eine technisch saubere Lösung wäre das doppelte Anlegen eines Indexes: einen den man behalten will und einen der sich bei der Übertragung auflöst. Das erfordert aber eine saubere Datenkapselung der Index-Verwaltung, die früher nicht gegeben war. Die interne Organisation ist aber inzwischen viel sauberer, und so scheint dies eine Möglichkeit zu sein der man sich nun 'nähern' kann. Ich werde es auf jeden Fall im Auge behalten.

zu 2)
kann sein dass sie gefragt werden, das wäre aber eigentlich falsch. Richtig wäre es nach m.E., wenn der Robinson explizit erklären kann, dass er immer gefragt werden will, damit er die bei ihm entstehende Last kontrollieren kann. Das wäre eine einfache Option und mit ganz wenig Aufwand sowas zu machen. Wäre die Option für dich ok?

zu 3)
Das geht nicht. Der Grund ist die Definition des Robinson-Peers: nur eigene Inhalte sollen drin sein. Bei einer globalen Suche verwässert man den eigenen Inhalt mit Daten anderer Leute, und das ist nicht das was ein Robinson-Peer Betreiber will. Wenn du eine globale Suche haben möchtest, musst du den Robinson-Modus abschalten, dann hast du bei der Suche die Option zwischen lokaler und globaler Suche.

zu 4)
verstehe ich nicht ganz. Robinson-Peers verschicken gar nichts, daher auch nicht per DHT. Wenn du im Robinson-Modus Peers Clusterst, dann findet bei einer Suche auch eine Suche über die anderen Peers im Cluster statt, dafür ist das Cluster ja da. Die 'erweiterungs-Option' zu 3 geht natürlich nicht weil Robinsons ja eben Robinsons bleiben sollen.

nennen wir das hier mal 5):
Low012 hat geschrieben:Hier noch eine Idee vom LinuxTag, die vielleicht auch halbwegs in diesen Thread passt:
Wenn die Themenpeers eine kurze Beschreibung ihres Inhaltes in den News mitschicken würden, würden auch andere Peers informiert werden, dass es zu einem bestimmten Thema einen Peer gibt. Der User könnte dann bei der Suche entscheiden, ob er einen bestimmten Robinson-Peer in die Suche einbinden möchte. Das Ganze könnte z.B. so aussehen wie bei metager.de, wo man ja auch verschiedene Suchquellen wählen kann.

Das wäre eine gute Sache, damit würde auch transparenter werden das wir sowas haben und mehr Leute dazu bringen eigene Themenpeers zu machen. Im Kontext mit 2) ergibt sich hier aber ein kleiner Widerspruch, denn ein Wunsch eines Robinson, immer gefragt zu werden kollidiert mit der Entscheidung des Users einzelne Robinsons zu aktivieren. Die Auflösung des Widerspruchs wäre dadurch gegeben, dass alle Robinson per default als Target aktiviert sind, und der User einzelne einfach ausklicken kann.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sinn von Robinson-Netzen

Beitragvon hendi » Do Jun 26, 2008 6:07 pm

1) Au ja, bitte bitte! :)

2) Ja, das klingt gut so. Wäre super, wenn das umgesetzt wird.

3)+4) sind wurscht, wenn 5) umgesetzt wird. Kommt in meinem Kopf auf's selbe raus. Vielleicht hab ich's umständlich ausgedrückt.
hendi
 
Beiträge: 35
Registriert: Mi Jun 27, 2007 11:50 am

Re: Sinn von Robinson-Netzen

Beitragvon ribbon » Do Jun 26, 2008 6:58 pm

der unterschied ist doch dann, dass man, wenn man zu einem bestimmten Themengebiet suchen möchte, erstmal eine Suche für die Nodes benötigt. Idealer wäre es, wenn man mit seinem Node Zugriff auf alles hat. Sprich der DHT muss die näheste Stelle liefern, nicht der User sich schlau machen, welches Portal er ansurfen muss..
Kann man das denn nicht dadurch erreichen, dass eine Kopie des Robinson-Peers IMMER im Freeworld-DHT abgelegt wird?
Entweder zweiter Remote Crawl oder senden des DHTs nach und nach.
Die Suche sollte auch so organisiert sein, dass ein Robinson-Peer IMMER vom Freeworld Netz durchsucht wird.
Der Begriff ist ggf auch daher nicht ganz passend. JEDER, der eine Bibliothek betreibt, will ich Zulauf, Kunden, Suchende.
Daher ist der Robinson gar nicht alleine. Sondern: Es ist nur eine Spezial-Bibliothek, die aber ALLEN offenstehen soll.
Wenn jemand einen Index getrennt vom Freeworld machen will, soll er dich einen zentrale Access Datenbank nehmen, warum yacy? gut das geht auch, aber hat doch mit dem Freeworld gar nichts zu tun, warum sollte einer mit dem Wunsche einer Websuche zu einem Spezialtheme eine p2p decentrale Architektur wählen? Das Prinzip von Yacy ist doch dass alle allen was zur Verfügung stellen und so eine grosse Websuche dabei rauskommt?
Wie man es daher technisch auch löst, dass entweder der Index des Robinsonpeers ins freeworld netz distribuiert wird, oder dieser auch IMMER durch das freeworldnetz durchsuchbar ist, weiss ich nicht.
Aber grundsätzlich soll man diese peers daher auch im Peercount des DHTs sehen und mitzählen.

Daher sollte man an einen Exclusive-Peer denken (mit inhaltlich themenschwerpunktmässigen Webseiten) oder man kann ihn auch Fakultäts-Peer oder auch Peer mit Themenschwerpunkt nennen.

Es mach irgendwie wenig Sinn für mich, eine Kiste zu haben, die nur Seiten zur Elektrotechnik indexiert.. wie ist da crawlen möglich? und eine Kiste, die nur die Wikipedia indexiert ist gar keine Themenschwerpunkt, da diese alle Themen beinhaltet.

Und wie gesagt, man muss erstmal eine Meta-Suche habe, den richtigen Peer zu finden. Wenn das so gewollt ist, heisst es dann eine Bankrotterklärung für den DHT, weil er die Ergebnisse nicht finden und liefern kann?
Wie soll ein Themen-Schwerpunktpeer überhaupt gepflegt werden? Dann kann man nur manuell Links bzw Domains einpflegen. Das ist handverlesen, was ein guter crwaler mit zwei anderen peers des freewolrdnetzes völlig automatisch und schneller und selbständiger finden würde. Im Gegenzug ist der Themen-Schwerpunkt-Peer nicht am Netzwerk und nicht auffindbar.

Wer eine Suche braucht, die andere von der SUCHE ausschliesst, kann ja gerne irgendeine Methode zum indexieren nehmen oder yacy, aber die, die nur Webseiten zu einem Themengebiet in ihrem Peer manuell hinzufügen, sind nicht effizient im Wachstum, sind nicht in der globalen Suche und machen keinen Sinn hinsichtlich DHT und hamming distance und zuodrnung der geparsten Link distribuiering in andere Peers - bis hin zum unterwandern des ganzen Sinns von yacy als einer Aktion, wo viele sich zusammentun als eine Art Genossenschaft und es auch allen zur Verfügung steht.

Die Privaten Bauernhöfe können ja sein, aber sollten nicht Thema für yacy sein, denn darunter verstehe ich ein freeworld netz, in dem alle beitragen und auch jeder suchen kann.

Dass es darüberhinaus APPROVED oder REVIEWED Peers gibt, die nicht jeden x-beliebigen Link speichern, ist ok, dann sind das MODERIERTE PEERS, aber keine Robinson-Peers. Können wir diesen Begriff ändern?
Moderierte Peers sollen von jedem durchsuchbar sein (das andere wären Private Suchmaschinen) und zudem sollen diese auch ihre Links an alle anderen Peers als Copie senden (also ohne loales Löschen).

Da derzeit die Links ja glaube ich an 3 nodes verteilt werden, bin ich eh gegen das Löschen von Links aus dem lokalen Index.
Kann man das nicht per default abschalten? so dass jeder node seine gesammelten Nüsse auch behält als zustzliche Kopie?

Es ist jedenfalls ein Unding, dass 200 Millionen Links des KIT vor sich hin sauern und im Freeworld Netz nicht zu finden sind, in der Metager aber schon. Dann kann man das auch Google oder einer anderen zentralen Authorität zuschustern.

Das macht jedenfalls den Genossenschaftsgedanken kaputt. Bitte daher sicherstellen, dass jeder, der yacy nutzt, auch dieser Philosophie gerecht wird, a) dass die Urls an andere Peers gehen, und b) dass jeder, der yacy betreibt, auch mithilft, die Last der Suchanfragen zu tragen.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Sinn von Robinson-Netzen

Beitragvon datengrab » Do Jun 26, 2008 7:12 pm

ribbon hat geschrieben:Es mach irgendwie wenig Sinn für mich, eine Kiste zu haben, die nur Seiten zur Elektrotechnik indexiert.. wie ist da crawlen möglich?

Du crawlst gezielt Domains die dem Thema entsprechen mit einem Domainfilter. Und das ist sehr wohl sinnvoll. Wenn du auf solch einem Peer deine Suche startest (und der peer gut gepflegt ist) erhältst du extrem hochwertige Ergebnisse. Wie man das ins freeworld-Netz vernünftig einbindet, darüber muß man sich sicherlich noch gedanken machen.
Da derzeit die Links ja glaube ich an 3 nodes verteilt werden, bin ich eh gegen das Löschen von Links aus dem lokalen Index.
Kann man das nicht per default abschalten? so dass jeder node seine gesammelten Nüsse auch behält als zustzliche Kopie?

Das ist spätestens wenn das Netz ein wenig größer wird ein absolutes Unding. Schon jetzt haben einige weit über 30 Gigs von einem einzelnen Peer auf der Platte. Die Redundanz sollte bei steigeder Nutzerzahl halt steigen, aber alles andere macht kein Sinn.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Sinn von Robinson-Netzen

Beitragvon Orbiter » Do Jun 26, 2008 7:16 pm

um es kurz zusammenzufassen:
ich halte die Anforderung an Anonymität und Unabhängigkeit für YaCy - User hoch. Das ist sehr wichtig.

Jede Eingliederung in eine Gemeinschaft muss freiwillig geschehen, so ist das auch mit den Informationen die man im Rechner hat, und die man mit YaCy auf seinen Rechner holt. Daher schaue ich ganz genau darauf das es für den Nutzer immer transparent ist, wieviel von dem was er mit YaCy macht nach draussen dringt. Das beinhaltet natürlich auch die Option, gar nichts nach draussen zu lassen. Dazu gibt es den passenden Namen 'Robinson', und eine ebenso strenge Definition was das bedeutet.

Natürlich ist YaCy eine Community-Suche! Aber es ist eben auch eine private Suche, wenn man das will.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sinn von Robinson-Netzen

Beitragvon ribbon » Do Jun 26, 2008 11:35 pm

mh.. klar.. soll jeder das Recht haben, bei yacy nicht mitzumachen und Daten privat zu halten. nagut.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Sinn von Robinson-Netzen

Beitragvon DanielR » Fr Jun 27, 2008 3:17 pm

ich würd auch sagen, wenn jemand einen Themenpeer machen will kann er DHT-in abschalten. Dann crawlt er nur Seiten die dort hingehören. Aber diese immer zu durchsuchen geht nicht, da evtl. 100.000 Themenpeers existieren, da wäre der Aufwand viel zu groß. Eine Auswahl aus bekannten Themen wäre wohl das beste. Dafür wird die Suchkomplexität aber gesteigert (statt Suchbegriff wird zusätzlich (optional) Kategorie benötigt).
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Sinn von Robinson-Netzen

Beitragvon ribbon » Fr Jun 27, 2008 4:31 pm

Ein Themen-Peer sollte privat bleiben, dann kennen wir seine Existenz nicht.
Anonsten gehören die Urls in den freeworld DHT und der Peer in die Gemeinschaft.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Sinn von Robinson-Netzen

Beitragvon Huppi » Fr Jun 27, 2008 9:40 pm

Nee, ein Robinson-Peer muß nicht abgeschottet bleiben. Dann ist das eine separate Netzdefinition. Die kann auch Sinn machen, s. Sciencenet, aber Robinson-Peers im Freewold-YaCy stören überhaupt nicht. Die werden noch nicht ideal eingebunden in die Suchanfragen, aber das wird ja noch optimiert kommen.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Sinn von Robinson-Netzen

Beitragvon Orbiter » Mo Jun 30, 2008 11:47 pm

hab nun 2) implementiert, allerdings mit kleinen Änderungen:
es ist nicht notwendig eine neue Option in der Robinson-Konfiguration einzuführen, mit dem der Robinson einstellen kann ob er immer gefragt werden will oder nicht, denn diese Option ist ja bereits durch die Wahl eines public oder private Robinson gegeben. Das heisst nun das alle bekannten Robinson-Peers in die Such-Selektion mit aufgenommen werden können. Das habe ich mal gemacht, aber dann festgestellt, dass dabei wirklich viele dabei sind, u.a. auch die Statistikpeers. Also habe ich die Auswahl auf nur solche Robinson begrenzt, die mehr als eine Million Links haben.

Wenn nun also ein Robinson immer bei einer Suche gefragt werden will, so muss er einfach ein public Robinson sein und mehr als eine Million Links im Index haben.
SVN 4962
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sinn von Robinson-Netzen

Beitragvon Orbiter » Di Jul 01, 2008 12:06 am

..und gleich ein Add-On:
da ja nun die peer-tags gar keine Selektion bei der Suche mehr aktiviert (werden ja nun alle selektiert) habe ich das peer-Tag Feld eine neue Funktion zugeführt: ein normaler DHT-Peer kann dort auch markieren dass er bei matching von Tags mit Suchworten als Ziel ausgewählt wird. Als spezielles Tag kann man dort ein '*' eingeben (ohne Quotes), das führt dann dazu das auch ein nicht-Robinson immer bei einer Suche gefragt wird.
SVN 4963
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sinn von Robinson-Netzen

Beitragvon Lotus » Di Jul 01, 2008 2:35 pm

eine getrennte Tag-Auswahl wäre auch schick. Die Tags der Seeds sind ja schon bekannt, sodass keine weitere Abfrage stattfindet, wenn die Tags z.B. als Tagwolke unter dem Suchfeld eingeblendet werden könnten. Bei Klick kann der Tag dann in das Tag-Eingabefeld springen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sinn von Robinson-Netzen

Beitragvon Orbiter » Mi Jul 02, 2008 10:40 am

hmhm, ich weiss nicht ob ich das richtig verstanden habe:
- nach Anzeigen des Suchergebnis soll eine tag-Wolke die tags der Peers anzeigen, die zum Ergebnis beigetragen haben?
- durch Auswahl eines Tags wird also eine erneute Suche unter Zuhilfenahme des einen Peers angesteuert. Aber der war dann doch eh schon bei der vorherigen Suche dabei?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sinn von Robinson-Netzen

Beitragvon Lotus » Mi Jul 02, 2008 4:19 pm

Nicht ganz:
- Tags können unabhängig vom Suchstring in ein zweites Feld eingegeben werden
Das löst das Problem, dass der Tag im Suchergebnis vorkommen muss.
- um zu sehen welche Tags nutzbar sind, wird eine Tag-Wolke angezeigt. Durch klick auf ein Wort wird dieses im Tag-Feld ergänzt
Und um übersichtlich zu bleiben, sollte das nur optional sichtbar sein, z.B. unter "more options" auf der Suchseite.

Wenn das so gelöst wird, brauchen auch nicht mehr so viele Tags vergeben werden. Der Motorrad-Peer ist z.B. ziemlich überladen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sinn von Robinson-Netzen

Beitragvon Huppi » Mi Jul 02, 2008 7:46 pm

Ja, denn sonst gehen zu wenig passende Anfragen an den Motorrad-Peer, bzw. die beiden: Motorradsuche und MotoYaCy.
Ich schaue mir die aktuellen Änderungen mal an.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron