"Freunde" innerhalb des YaCy Netzes

Ereignisse, Vorschläge und Aktionen

"Freunde" innerhalb des YaCy Netzes

Beitragvon lisema » Sa Jan 03, 2009 1:39 am

Moin Moin,

ich habe ein bisserl nachgedacht in welche Richtung wohl die kleinen YaCy Instanzen gehen und drehe mich gedanklich primär um intelligentes Crawl Verhalten.

Was mich dabei momentan stört, ist das man keine "Gruppen" bilden kann. Ich würde gerne bestimmte Peers bevorzugen. Für diese mit hoher Priorität crawlen, ohne dabei für "alle" mit dieser Priorität zur Verfügung zu stehen. Auch möchte ich Daten zwischenzeitlich auf nicht vertrauenswürdigen Speicher ablegen.

Es kann sein, dass ich als einziger diese Anforderungen habe, deshalb würde mich interessieren, wer noch an soetwas interessiert ist.
Als 1. Beispiel: 10 Leute tun sich zusammen um die NASA seiten mit Tiefe 30 zu indexieren, einer Crawled, die 9 anderen vertrauen dem crawler und helfen ihm.
Die Restkapazitäten geben alle dem YaCy Netz, kommt es zu Engpässen wird der NASA Crawl aber klar bevorzugt.
2. Beispiel: Jemand will eine größere Seite indexieren und überredet ein paar Freunde durch Rechenleistung ihm temporär zu helfen
3. Beispiel: Eine YaCy Instanz kann/darf besonders grosse Dokumente verarbeiten, dieser soll aber nur bestimmten peers zur Verfügung stehen und auch nur für grosse Dokumente benutzt werden

Das sind momentan meine Gedanken. Einige anderen Dinge sind, dass einige Peers Daten nur sammeln und packen. Später kann dieser Peer sie dann verarbeiten oder aber weiterleiten. So kann man Zeiten ohne "schnelles" Internet oder ohne Internet (wenn das Spiel wichtiger ist ;) ) überbrücken. Aber es ist auch möglich für andere Peers Daten zu sammeln, sodass diese "mehrere" IPs haben. In den Fällen hätte ich gerne Signaturen, sodass mir nicht irgendein Peer RohDaten unterschieben kann.

Soweit meine Gedanken, bitte gebt mal Feedback. Vielleicht geht das ganze schon mit Boardmitteln, vielleicht nicht.

Grüße
lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon lulabad » Sa Jan 03, 2009 8:48 am

Prinzipiell ist es jetzt schon möglich. Es gibt nämlich die Möglichkeit einen public Cluster zu definieren. Die Yacystats Peers sind so konfiguriert.
Die Peers die zu einem Cluster zusammengeschlossen sind, akzeptieren nur remote Crawls von innerhalb des Clusters. Remote Crawls vom Freeworld werden ignoriert. Suche die vom Freeworld kommen werden an alle Peers innerhalb des Clusters geschickt. Der Index wird nicht verteilt.

Es ist noch nicht ganz was du dir vorstellst, aber die Mechanismen sind eigentlich alle da.

Die Einstellungen findest du unter ConfigNetwork_p.html
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon lisema » Sa Jan 03, 2009 12:57 pm

super danke.

Dann kann man das ausbauen :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon Orbiter » Sa Jan 03, 2009 1:54 pm

Die Idee der 'Clans' oder 'Groups' gibts schon lange, die Public Cluster gibts seit rund 1 1/2 jahren, und niemand nutzt sie. Vielleicht liegts daran, das es niemand kennt, vielleicht auch daran das was fehlt. Wäre gut rauszufinden was das wäre. DHT beispielsweise gibts dort nicht, weil es eben ein Robinson-Netz ist, in dem definitionsgemäß kein DHT gemacht wird.

Vielleicht muss man das überdenken. Ich würde in einem Robinson-Cluster statt einem DHT eine vertikale Indexverteilung machen (nach Dokumenten, nicht nach Wörtern), das steigert die Performance und kann man unabhängig von den Peer-Hashes machen. Ich versuche das im neuen Index-Datenstrukturen-Konzept zu beachten.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon lulabad » Sa Jan 03, 2009 2:24 pm

Orbiter hat geschrieben:Die Idee der 'Clans' oder 'Groups' gibts schon lange, die Public Cluster gibts seit rund 1 1/2 jahren, und niemand nutzt sie.

He, ich bin also niemand? :o
Ne, ich weiss wie es gemeint ist.

Das Problem ist sicherlich auch die "komplizierte" Einrichtung.
Es muss in jedem Peer, jeder andere Peer im Cluster eingetragen werden. Da ist es nicht mal so auf die schnelle mit einen neuen aufnehmen. Das ist nur was für diejenigen die Zugriff auf alle beteiligten Peers haben.
Es bräuchte sowas wie einen Master-Knoten der allerdings nur die Gruppe zentral verwaltet. Also welche Peers in der Gruppe sind.

Beispiel:
Ich gründe eine Gruppe mit dem namen yacystats. Mein Peer yacystats-de-01 wird der Verwalter der Gruppe. Nun kann ich diese Gruppe "offen" lassen, so dass einfach jemand in seinem Peer auf der Netzwerkseite die Gruppe yacystats auswählt und damit ist sein Peer in meiner Gruppe.
Ich kann aber auch die Gruppe mit einem Passwort schützen (oder andere Methoden), so dass man nur mit einem Passwort einen neuen Peer in Gruppe aufnehmen kann.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon lisema » Sa Jan 03, 2009 2:35 pm

Wenn ich das Robinson Konzept richtig verstanden habe, ist man damit nur auf diesen Cluster beschränkt. Das ist aus meiner Sicht aber ein anderer Anwendungsfall, denn um sinnvoll soetwas zu betreiben muss man schon eine gewisse Masse mitbringen.

Ich meine eher normale Peers innerhalb des normalen Netzes, mit DHT und allem, die bestimmten anderen Knoten ihre Crawlleistung zur Verfügung stellen. Ich dachte eher an Situationen wie: "wäre es nicht cool das Guildwiki indexiert zu haben? Wer hilft mir dabei?" und nach dem Aufruf installieren sich X Guildwars spieler YaCy und helfen das Guildwiki, und nur das, zu indexieren. Des Weiteren finden ein paar normale Knoten die Aktion gut und helfen auch.
Die "OneTime" User könnten in das Robinson Konzept passen, aber ich würde es nicht unbedingt losgelöst sehen wollen. zB könnte sich ja eine Gruppe verpflichtet fühlen, den öffentlichen Index mit SpieleSeiten anzureichern, oder andere mit kindgerechten Seiten. Diese können, wenn geschickt gecrawled wird, sicher vieles im Index verschieben. Wollen aber immer Teil des normalen Indexes bleiben.

Warum aber keiner das Konzept nutzt? keine Ahnung. Ich denke wenige haben die Leistung, solch ein isoliertes Robinson Netz zu stemmen.


Danke Lulabad für die Antwort während ich meinen Post schrieb

genau sowas kann helfen. Nicht yacystats sondern ein peer der bestimmte Themenbereiche crawled. Am besten an den man seine Crawl wünsche übermittelt, sodass der Mod des peers nur noch OK oder Nope reinhackt und die ganze Gruppe damit weiterläuft. Lass es März sein, da kann ich wieder viel Zeit für Coden verwenden :(
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon ribbon » Sa Jan 03, 2009 3:23 pm

Ich bin für Netzneutralität :roll:
Die Peers sollen endlich ihre Bandbreite up und down für DHT, Crawl und Search angeben,
dann können sich über dieses Kriterium "Grosse Fische" zueinander automatisch finden. Siehe http://www.i2p2.de:
Kriterien dort sind "high capacity", "fast", "normal". A sucht A, B such B und C sucht C vorwiegend, aber A wird niemals C ausschließen. War auch immer Grundlage jedes Ant routings.
Zuletzt geändert von ribbon am Sa Jan 03, 2009 4:37 pm, insgesamt 1-mal geändert.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: "Freunde" innerhalb des YaCy Netzes

Beitragvon lisema » Sa Jan 03, 2009 3:51 pm

Netzneutralität?
In dem Zusammenhang mir schleierhaft.

Zum Stichwort Profilen: das ist eine andere Baustelle.

Man kann aber viele Probleme verbessern, wenn man intelligent crawlt. Genau das soll damit erreicht werden

Nimm einen Cluster der News Sites bearbeitet, da drin ist Heise, Spiegel, taz whatever
Den findest du unterstützenswert, also sagst du: die Instanz, die das verwaltet ist vertrauenswürdig und soll mit hoher Priorität behandelt werden.
Also führt dein Remote Crawler die anfragen mit einer Priorität wie die lokalen durch. Das Ergebnis ist, dass die Newssites schnell abgegrast werden können, du selber deine Crawl Punkte nicht setzen musst, und doch erheblich dazu beiträgst. Wie viele hier crawlen zB heise.de ? w3c.org ?
So kann eine Instanz mit einer Tiefe von 20 oder mehr auf die Domain losgelassen werden, und hat auch chancen das zu schaffen.

Dadurch, dass du dich nur in bestimmten Projekten engagierst, wird dieses Projekt mehr Gewicht haben, weil es überproportional gecrawled wird. Auch ist es dadurch möglich kleine Instanzen zu fahren, die ein bisserl helfen, aber nicht gross die Maschine belasten oder Arbeitsaufwändig sind.

EDIT: Das KIT ist doch da
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste