Mehrere Netze mit einer Instanz + weitere Ideen

Ideen und Vorschläge sind willkommen.

Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon RunClear » Di Jul 22, 2008 10:32 pm

Hallo zusammen,

seit einiger Zeit wächst und gedeiht mein kleiner Peer im Freeworld. Allerdings fehlen mir (und vielleicht auch anderen) noch ein paar Punkte, um Yacy richtig rund zu machen.

1. Mehrere Netze
Ich würde auch gerne Tor, I2P und mein Intranet (Passwortgeschützt) mit Yacy abdecken, ohne dass ich für die anderen zusätzliche Rechner anschaffen / Instanzen anlegen und in den Configdateien rummanschen muss. Meine Idee ist folgende:

Datentechnisch scheint in Yacy ja schon alles schön über unterschiedliche Verzeichnisse abgebildet werden. Die einzelnen "Netze" kann man auch leicht an den URLs erkennen:
*.onion = Tor
*.i2p = I2P
192.../10../etc. = Intranet
Rest = Freeworld
Das kann man glaube ich ziehmlich gefahrlos hart programmieren. In Stufe 2 könnte man eine kleine Tabelle machen, wo man Url bzw. Domain einem beliebigen Netz zuordnen kann. Vor Yacy könnte man Privoxy setzen, der anhand der Toplevel-Domain die richtigen Forwardproxy nimmt, dann muss man das nicht auch noch in Yacy reinprogrammieren.
DHT und die Netzwerkstatistik müßten dann nach Netzwerk getrennt werden, hier ist glaube ich der größte Anpassungsaufwand.
Wobei die Intranet-Suche nur im Intranet bzw. für bestimmte Benutzer freigeschaltet sein sollte.

2. Fileshare bzw. Repository
Früher gab es nur den Fileshare, wo man auch über das Web Uploads machen konnte. Das würde ich gerne nutzen, da ich viel unterwegs bin und nicht immer mit USB-Sticks arbeiten möchte; in einigen Firmen ist USB auch deaktiviert, da ist es für mich einfacher, die Files aus dem Web zu laden, die ich brauche. In der Benutzerverwaltung gibt es noch das Up- und Download-Recht, aber die dazugehörige Dialog fehlt im Fileshare oder Repository. Was ist eigentlich der Unterschied? Jetzt gibt es anscheinend noch beide, allerdings ist nur das Repository erreichbar.
Man könnte ja einen öffentlichen Fileshare und ein Intranet-Repository machen - meine privaten Files sollten nicht global zur Verfügung stehen.
Die Files werden ja indiziert (oder?) und dann hätte man eine kleine Desktopsuche mit der Möglichkeit, mit einem bestimmten Benutzer auch über das Internet lokal zu suchen und Dateien zu bearbeiten ...
Den Fileshare könnte man auch zu einem Webdav-Laufwerk erweitern ...

3. Wiki + Blog wie Lesezeichen
Die Lesezeichen finde ich klasse, insbesondere die Möglichkeit, öffentliche und private Lesezeichen zu machen. Gleiches fände ich auch im Blog und Wiki gut. Mein Blog-Tagebuch ist privat, genauso wie meine Adressen- und Passwortliste im Wiki. Diese sollten nur über die Intranetsuche zur Verfügung stehen, während die öffentlichen Blog- und Wikieinträge in den normalen globalen Index aufgenommen werden können.
Idee: Vielleicht nicht nur zwischen privat und öffentlich unterscheiden, sondern alle 3 (Blog, Wiki, Lesezeichen oder 4 mit dem Fileshare) nach Netzen; schließlich haben Tor- und I2P-Links in meinen Bookmarks nur in den entsprechenden Netzen etwas zu suchen (Privat = Intranet, Öffentlich = Freeworld, ...)

4. Datenbankgröße
Ich verstehe deutsch und englisch, also interessieren mich nur Webseiten in diesen beiden Sprachen. Sollen andere gerne für die anderen Sprachen Ressourcen zur Verfügung stellen, ich möchte das nicht. Neben einer Spracherkennung fehlt eine Sprachenblacklist. Vielleicht sollte man die Netze über die Sprachen in Subnetze aufteilen (also Freeworld deutsch, Freeworld englisch) ...
Man könnte also die derzeitige Netzlogik auf Url bzw. Domin + ggf. Sprache erweitern, also
Tor deutsch
Tor englisch
I2P deutsch
I2P englisch
Freeworld deutsch
Freeworld englisch
Für die Altdaten ohne Sprachkennzeichen oder wo die Sprache nicht ermittelt werden konnte, gibt es dann noch die Netze
Tor Sprache unbekannt
I2P Sprache unbekannt
Freeworld Sprache unbekannt
DHT & Suchen finden dann nur in den jeweiligen Subnetzen statt - auf der Suchseite wird mit angegeben, in welchen Sprachen gesucht werden soll. Könnte man über einen Cookie speichern, damit der Anwender nur einmal die Sprachen auswählen muss (oder wie Google anhand der IP? bzw. an der Peer-Sprache)

5. Integration anderer Suchmaschinen (wie Metager nur umgekehrt)
Warum soll ich mit Yacy suchen, wenn ich dort nur einen Bruchteil der Daten bekomme (weil das Netz noch am Wachsen ist und es noch nicht so vlele Peers gibt). Ich kann ja auch gleich bei Google, MSN, Yahoo oder Metager suchen ... dann brauche ich meinen Peer ja gar nicht ...
Metager hat Yacy eingebaut, warum nicht auch umgekehrt? Dann kann man immer über seinen Peer suchen und bekommt "vollständige" Suchergebnisse, obwohl die Yacy-DB noch nicht komplett ist. Man könnte diese Integration weiterspinnen und alle gefundenen URLs von externen Suchmaschinen in Yacy gleich selbst crawlen ...
Bei der Integration sollte man nur Suchmaschinen nehmen, die nicht zuviel mitloggen (also scroogle anstelle google usw.)

So, jetzt bin ich auf die Kommentare gespannt.
RunClear
 
Beiträge: 4
Registriert: Di Jul 22, 2008 9:28 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon Low012 » Mi Jul 23, 2008 1:53 pm

Man merkt wirklich, dass Sommer ist, wenn so eine Frage so lange unbeantwortet bleibt. ;)

Ich habe nicht viel Zeit, deshalb fasse ich micht kurz:

1. Wenn ich das richtig in Erinnerung habe, ist das geplant und die pyhsikalische Trennung der Daten auf der Festplatte in verschiedenen Verzeichnissen eine Vorstufe.

2. Das Fileshare-Servlet hat Orbiter ursprünglich als Demo geschrieben. Da es mit der Zeit nicht weiter entwickelt wurde und Probleme gemacht hat, wurde es irgendwann entfernt. Der Repository-Ordner war für die Demonstration der Intranet-Funktion auf dem Linuxtag gedacht, ich weiß nicht, ob er darüber hinaus eine Funktion hat/haben soll.

3. Private Eintrtäge in Wiki und Blog sollten nicht besonders schwer zu realisieren sein, es muss sich nur jemand finden, der es macht. ;)

4. Bis jetzt ist eine Spracherkennung in einer ersten, einfachen Version implementiert, wird aber noch nicht genutzt. Ob eine Filterung nach Sprachen sinnvoll ist, müsste man überlegen. Einerseits soll natürlich jeder in der Lage sein, selbst bestimmen zu können, was er auf seinem Rechner haben will und was nicht, andererseits könnte ich mir vorstellen, dass eine solche Funktion (jedenfalls in einem kleinen Netz) die Verteilung von Daten behindert und somit auch die Suche stört. Müsste man überlegen...

5. Den Vorschlag habe ich schon öfter gehört. Einerseits ist es für den Anwender natürlich bequem, eine Metasuche in YaCy eingebaut zu haben, andereseits ist das Ziel des Projekts ja, eine alternative zu anderen Suchmaschinen zu sein. YaCy würde sich dann auch der (eventuell sogar berechtigten) Kritik stellen müssen, dass es fremde Daten mehr oder weniger kopiert, ohne dafür eine direkte Gegenleistung zu bringen. Ich denke also nicht, dass eine solche Funktion direkt in YaCy einen Platz hätte, allerdings als externes Projekt, dass YaCy als Werkzeug nutzt durchaus denkbar wäre.

So, jetzt ist es doch etwas länger geworden. Das alles ist ürbrigens nur meine persönliche Meinung, die natürlich von der Meinung anderer Projektteilnehmer abweichen kann!
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon ribbon » Mi Jul 23, 2008 11:18 pm

eepsites müssen doch nicht in eine getrennte Datenbank, kann man das nicht durch einen Filter auf der Webseite der Suchergebnisse machen?
Filesharing über die Indexierung von OFF-Links bitte, die ebenso wie eepsites in den Index gehören (filterung nach http mit em Wort offsystem im Link.
Keine zentrale Suche im Node.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon RunClear » Do Jul 24, 2008 6:24 pm

@Low012
Danke für die Infos. Mir geht es um den Mehrwert für den Anwender, der Yacy sponsert (Hardware, Energie und Zeit):

Die Sprachengeschichte ist wichtig. Bei Google & Co. ärgert es mich, dass ich nur eine Sprache selektieren kann (wenn überhaupt). Wenn ich z.B. nach Programmen oder Produktnamen suche, dann interessieren mich nur die Ergebnisse in deutsch und englisch. Bei google.de kann ich nur eine Sprache selektieren, um nur englisch zu bekommen muss ich google.com auswählen. Oder halt sprachenübergreifend inkl. russisch, chinesisch, etc.
Eine Aufspaltung der Links nach Sprache hätte auch den Vorteil, dass die Dateien kleiner (= leicher handelbar) werden und bei einer geschickten Verteilung über mehrere Festplatten und Threads insgesamt mehr Performance bringen. Auch ist die Ergebnismenge der gefundenen Webseiten kleiner und zielgerichteter.

Die Integration von z.B. Metager und Scroogle in Yacy würde dazu führen, dass man neben Yacy keine andere Suma mehr aufrufen muss (= Bequemlichkeit für den Anwender). Wenn Yacy dann die gefundenen Urls, die es noch nicht kennt gleich crawlt, dann wird automatisch der Yacy-Index besser und die externen Sumas werden bald gar nicht mehr benötigt. Mir persönlich stellt sich die Frage, was ich crawlen soll. Daher lasse ich einfach Remotecrawls verarbeiten. Bei dieser Kombination (externe Sumas und automatisches Crawlen von nicht bekannten Suchergebnissen) werden die Leute lieber den Crawler mal aktivieren, da Seiten gecrawlt werden, die auch gesucht werden.
Und: Metager bindet Yacy ein, warum also nicht auch umgekehrt?
Und: Warum soll ich eine Suchmaschine selbst laufen lassen, wenn ich trotzdem noch andere abfragen muss?
Und: Es gibt ja auch andere Programme, die mehrere Suchmaschinen abfragen und die Ergebnisse präsentieren - warum also nicht auch Yacy?
Und: 5 Queries pro Stunde für das gesamte Freeworld - das ist doch ein Witz. Warum sucht denn kaum jemand über Yacy? Was denkt jemand, der das sieht und sich überlegt, Yacy zu installieren? Wenn es kaum genutzt wird, warum soll man es instalileren?

Die anderen Programmteile (Web, Share, Blog, Wiki) gehören zwar nicht zum Kern von Yacy, aber sie bieten einen Mehrwert für den User und da Yacy eine Suchmaschine ist, werden die dort hinterlegten Infos (hoffentlich) auch gefunden. Alternativ kann ich mir natürlich auch XAMPP mit weiterer Software installieren, aber
1. ist das sehr aufwendig und kompliziert (und dann immer noch ohne Suchfunktion)
2. wenn das erstmal gemacht habe, dann brauche ich Yacy nicht.
Warum ist XAMPP so ein Erfolg? Weil es einfach zu installieren ist.

Warum wird Yacy ein Erfolg? Weil es einfach zu installieren ist, man damit einfach, bequem und komfortabel suchen und auch sonst alle sonstigen wichtigen Websachen machen kann, die ein Normaluser mal machen möchte (z.B. die super Bookmarkfunktion, kleiner Webserver für die eigene Visitenkarte oder z.B. eine (private) Adress- und Info-Verwaltung über das Wiki, Tagebuch, usw.

Btw, warum sind das Yacy-Blog und Yacy-Wiki nicht in einer Yacy-Installation? Hier fängt es schon an - warum nutzt man nicht die eigene Software? Warum soll ich sie dann nutzen?

Warum gibt es derzeit nur 50 Peers? Der hohe Ressourcenverbrauch ist abschreckend und der Mehrwert fehlt bzw. nicht schnell ersichtlich ist - mir tut meine Festplatte leid, auf der Yacy rumrödelt. Aber mit einer separaten (externen) Festplatte kann Yacy gut nebenher laufen - das muss man dem User gleich beim Download sagen, damit er die Software nicht gleich wieder deinstalliert. Externe Platten kosten heute nichts mehr.
Marketing ist wichtig und Microsoft ist über das Marketing groß geworden. Die beste Software nützt nichts, wenn es kein gutes Marketing gibt.

@ribbon
Die technische Umsetzung überlasse ich den Profis, aber Tor+I2P-Links haben nichts mit dem normalen Internet zu tun, genauso wie OFF-Links. Ohne Zusatzsoftware kann man damit nichts anfangen, daher sollten die nur dann angezeigt werden, wenn man es wünscht. Wenn das nicht über getrennte Netze und Datenbanken läuft, dann bekommen auch Peers Tor+I2P-Links, die damit nichts anfangen können (diese Links belegen nur Ressourcen, die die Leute evtl. dafür nicht zur Verfügung stellen wollen, genauso wie ich keine russichen oder chinesischen Links und Worte in meiner DB haben möchte). Die OFF-Links gehören meiner Meinung nach auch in ein anderes Netz (analog zu Bittorrent und Emule-Links), da der normale User mit seinem Browser damit nichts anfangen kann. Torrenttracker oder Emule-Linkseiten sind eine andere Baustelle, die gehören natürlich in den Index. (wobei wenn Yacy auch die Torrentlinks enthält, dann wird es ja selbst zum Tracker - und Tracker leben gefährlich ...) In separaten Netzen kann man gezielt danach suchen und sie auch gezielt deaktiveren, aber auch verteilen (vielleicht gibt es bald reine Torrent-/Emule-Yacys?)

Noch ein Wort zum OFF-System: Die Idee ist nicht schlecht, aber wenn der Linkname ein geschütztes Werk enthält (z.B. off-microsoft-office), dann kann das schon einen Anfangsverdacht begründen, mit dem der Staatsanwalt auch einen Haussuchungsbefehl bekommen kann, weil man dem User unterstellen kann, dann er sich einige Bit-Halden aus dem Internet geladen hat (was ja vielleicht noch ok ist), diese aber mit der OFF-Software zu z.B. Microsoft Office zusammensetzt und damit eine Urheberrechtsverletzung begeht. Warum sollte er sonst Bits mit dem Namen Microsoft Office downloaden? Andererseits wenn der Linkname nicht sprechend ist, dann findet man die Software nicht und das OFF-System ist überflüssig. Auch wenn man nur Bit-Halden anbietet, so wird doch über alle Bits hinweg Microsoft Office angeboten. Das ist ähnlich wie bei einem ISO-Image oder einem Archiv: Es ist immer Microsoft Office drin. Das OFF-System ist also keineswegs sicherer als Emule & Co. Es gelten die gleichen Regeln.

Sicher für solche Vorhaben ist derzeit nur I2P (vielleicht auch GNUnet, Freenet und wie sie alle heißen) - zwar langsam aber sicher; und ob man nun einen Tag oder eine Woche für den Download braucht, macht doch wirklich keinen Unterschied, oder? Und je mehr Leute mitmachen, desto schneller wird es ja.
RunClear
 
Beiträge: 4
Registriert: Di Jul 22, 2008 9:28 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon ribbon » Do Jul 24, 2008 11:08 pm

nur kurz um es technisch richtigzustellen:
- die Blöcke in off sind immer beides: mircosoft-iso und linux-iso
- die zusammensetzung erfolgt lokal auf deinem PC und daher kommt keine Polizei.
Wenn das Wort Microsoft in einer Url zu einer Hausdurchsuchen führen sollte, dann müsste google und auch jeder yacy node die url http://www.microsoft.com sofort bannen. Urls sind nur Metadaten.

Die anderen von Dir angesprochenen Netze sind sehr unsicher, denn wenn ich Mircosoft runterlade, dann liefert mir dieses Teil ein Nachbar, dessen IP ich kenne und damit anklagen kann. Das Hopping in peernetzen macht daher kein Sinn, nur in f2f netzen.

zu yacy: ich finde viele kleine spezialisierte cluster nicht so toll, daher sollte jeder auch chinesische links aufnehmen. Ein grosses Freenet ist besser. Zentrale Suchmaschinen in yacy sind ja wenn nur in der webgui eingespielt. aber wieso solle man sich einen java clienten installieren, wenn man die zentrale Suchmaschine auch ohne direkt im browser anywhere haben kann? ich bin eher dafür, dass die Metager die yacy nodes ans freenet anfliedert und von dort die suchseiten spidert.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon RunClear » Fr Jul 25, 2008 6:24 pm

@ribbon
Ein Link zu einer Webseite ist kein Problem, ein Link zu einer Datei = Raubkopie schon (warum werden wohl diverse Torrenttracker und Emule-Link-Server geschlossen obwohl die die Dateien gar nicht direkt anbieten?). Und dies unabhängig von dem Format der Dateien. Da jeder weiss, dass man die besagten Dateien zu einer Raubkopie umwandeln kann - warum sollte man diese Dateien laden, wenn man nicht die Raubkopie haben möchte? Der notwendige Anfangsverdacht ist da.
Problemlos ist, wenn ich mir yacy.tar runterlade und dann feststelle, dass MS Office drin ist (ich muss es natürlich sofort löschen, wenn ich das bemerke). Lade ich aber MS Office runter und finde Yacy, dann war es zumindest eine versuchte Urheberrechtsverletzung. Glücklicher Weise ist die Staatsanwaltschaft überlastet, ansonsten hätten viele schon Besuch gehabt.
Bei I2P, Freenet, GNUnet, etc. wird nicht direkt vom Nachbarn gesaugt, sondern wie bei Tor über mehrere Rechner gegangen, daher weiss der Anbieter nicht wer da sagt und der Saugende nicht von wem er saugt. Leider sind diese Netze aber sehr langsam, nicht so wie bei Emule, Torrent & Co.
Beispiel: http://www.gulli.com/news/schweiz-share ... 008-02-12/
(die Gesetze in Deutschland sind strenger als in der Schweiz ...)
Aber das ist off-topc und wenn Du meinst OFF wäre toll und sicher, bitte sehr. Warten wir auf die erste Anklage.

Ich persönlich will aber keinen öffentlichen OFF- oder Emule- oder Torrenttracker (d.h. Links zu den entsprechenden Dateien und potentiellen Raubkopien) in meiner Yacy-Installation haben - wegen der (möglichen) rechtlichen Probleme. Wenn das nicht sichergestellt werden kann, dann schalte ich meinen Peer ab. Übrigens: Google findet keine ed2k-Links oder Links direkt zu irgendwelchen Archiven, nur zu Webseiten mit diesen Links (was noch unkritisch ist). PDF- oder DOC-Dateien werden aber direkt gefunden. Warum machen die wohl diese Unterscheidung?

Wobei mir noch etwas einfällt: Es gibt ja diese Blacklisten-Funktion. Die würde ich aus Yacy entfernen, da sie Zensur ermöglicht. Wenn ich das richtig sehe, sind bis zu 10 Peers für ein bestimmtes Wort zuständig. Wenn ich also Yacy zensieren möchte, dann stelle ich 10 Peer auf die Adresse, die zu dem zensierenden Wort gehört, packe es in die Blacklist und schon gibt es in Yacy dieses Wort nicht mehr. Vielleicht etwas theoretisch, aber ganz easy.

Ich bin kein Freund von Porno & Co, aber aus zensurtechnischen Gründen würde ich notfalls damit leben, dass mein Peer auch solche Links enthält. Solange zumindest bis es einen Weg gibt, Pornowebseiten zu erkennen und diese dann in das "Porno"-Netz zu stecken ... wobei eine Abgrenzung zu medizinischen oder wissenschaftlichen Themen u.U. schwierig ist. Hier müßte wahrscheinlich manuell nachgearbeitet werden - da stellt sich die Frage, wie vertrauenswürdig derjenige ist, der eine solche Zuordnung macht ...
Aber es würde die Qualität der Suchergebnisse erheblich steigern ...

Vielleicht kann man die Blacklisten-Funktion in eine Yacy-Netz-Zuordnungsfunktion umprogrammieren: D.h. aus der jetzigen Porno-Blacklist wird eine Yacy-Porno-Netz-Zuordnungsliste. Diese installiere ich bei mir und alle Porno-Links laufen automatisch in das Porno-Netz. Wenn ich dieses nicht aktiviert habe, dann habe ich auch keine Porno-Links. Analog könnte man sagen, dass alle .onion-Links ins Tor- und .i2p-Links ins I2P-Netz laufen, alle ed2K-Links ins EMule-Netz usw.
Blacklisten sind ja auch gefährlich - gab es da nicht mal eine Klage, weil jemand sich beleidigt gefühlt hatte, weil seine Webseiten auf einer Blackliste standen? Jetzt werden die Seiten nicht mehr ignoriert, sondern nur einem bestimmten Netz zugeordnet.

Technisch mögen es vielleicht viele kleine Netze sein, über das GUI gibt es nur Freeworld, Tor, I2P, ggf. Emule, Torrent, OFF, ... mit den "Sub-Netzen" nach Sprache (Sprache unbekannt (wenn sie technisch nicht ermittelt werden kann oder in den Altdaten nicht ermittelt wurde), DE, EN, etc.). Ich sage bei der Suche dann immer, dass ich im Freewold alle Suchergebnisse von deutschen und englischen Webseiten haben möchte, also immer in 2 Subnetzen des Freeworld suche. Vielleicht mit einer Mengenangabe, wieviele Links in den anderen Sprachen zu meiner Suche zur Verfügung stehen.
Ein weiterer Vorteil wäre, dass wir weniger Commons hätten, mit denen Yacy ja derzeit noch nicht umgehen kann. Es gibt dann nicht mehr ein "Linux" über alle Sprachen, sondern viele Linuxe: "Linux DE", "Linux EN", usw. ...

Freeworld - da Yacy Open-Source ist, kann jeder Yacy umprogrammieren, also z.B. dafür sorgen, dass Tor- und I2P-Links auch in den normalen Freeworld-Index fließen und damit die Datenbank zumüllen. D.h. jeder Yacy-Peer müßte nicht nur beim Crawlen, sondern auch beim DHT-Empfang selbst analysieren, was er da gerade bekommt und in welches Netz es gehört, damit solche manipulierten Yacys nicht das ganze Netz verhunzen ... aber das macht glaube ich die Blacklist-Funktion schon, oder?
RunClear
 
Beiträge: 4
Registriert: Di Jul 22, 2008 9:28 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon DanielR » Fr Jul 25, 2008 11:11 pm

RunClear hat geschrieben:Freeworld - da Yacy Open-Source ist, kann jeder Yacy umprogrammieren, also z.B. dafür sorgen, dass Tor- und I2P-Links auch in den normalen Freeworld-Index fließen und damit die Datenbank zumüllen. D.h. jeder Yacy-Peer müßte nicht nur beim Crawlen, sondern auch beim DHT-Empfang selbst analysieren, was er da gerade bekommt und in welches Netz es gehört, damit solche manipulierten Yacys nicht das ganze Netz verhunzen

Wenn das nicht DER Punkt ist getrennte Netze zu haben ;) Wenn man keinen Müll will, macht man halt ein privates Netz, in dem nur das ist was man haben will! Und eine zweite Instanz aufzusetzen ist kein großer Aufwand (mehr). Klar gibt es dann doppelte Einträge (je Netz).

Ich finde deine Idee auch nicht schlecht, aber man muss halt auch die Nachteile berücksichtigen.
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Mehrere Netze mit einer Instanz + weitere Ideen

Beitragvon RunClear » So Jul 27, 2008 8:18 am

@DanielR
Private Netze sind Mist, weil sie dem Freeworld nicht bzw. nur sehr eingeschränkt zur Verfügung stehen. Außerdem muss ich dann alles selbst Crawlen, kann DHT nicht nutzen usw.

Wenn man für jedes Netz eine eigene Instanz aufmacht, hat man aber viel Overhead, insbesondere die Worte wären dann redundant (und gerade die fressen viel Hauptspeicher - meine fast 11 Mio nutzen 250 MB). Mit den jetzigen Konfigurationsmöglicheiten scheint es auch sehr kompliziert zu sein, ein Tor- oder I2P-Netz aufzumachen. An was man da alles denken muss. Wenn ich mehrere Instanzen für die Netze machen müßte und dort jeweils auch eine ähnliche Wortanzahl habe, dann habe ich 0,5 GB Hauptspeicher verschwendet ... Auch müßte ich in den jeweiligen Instanzen White- bzw. Blacklisten pflegen, damit jede Instanz nur ihre Daten enthält. Eine zentrale URL-Netz-Zuordnung könnte Abhilfe schaffen, weil alles was nicht als Tor, I2P, OFF, etc. identifiziert wird, ist halt das Freeworld-Netz.

Neben den privaten und nichtöffentlichen Netzen sollte es einfach sein, in einer Instanz auch mehrere öffentliche Netze zu haben, dann muss man wahrscheinlich gar nicht soviel in Yacy umprogrammieren: Die Worte sind netzübergreifend, die DHT-Versendelogik muss auch nicht angepasst werden, da der Peer in allen öffentlichen Netzen für die gleichen Worte zuständig ist. Der empfangende Peer entscheidet, in welches Netz er die empfangenen Daten einsortiert. Beim DHT-Empfang müßte Yacy nur eine Rückmeldung schicken, ob die empfangenen URLs auch wirklich angekommen oder ggf. blacklist-ähnlich abgewiesen worden sind (wegen nicht unterstütztem Netz; irgendeine Bestätigung gibts doch schon, oder?)
Diese Netze könnten im ersten Schritt hart codiert sein (bzw. sollten es evtl. auch, um bei den öffentlichen Netzen ein möglichst einheitliches Auftreten zu haben).

Eine öffentliche Netzhierarchie im ersten Schritt könnte so aussehen:

Freeworld - Tor____________- DE
_________________________- EN
_________________________- xxx
_________- I2P____________- DE
_________________________- EN
_________________________- xxx
_________- normales Internet - DE
_________________________- EN
_________________________- xxx

Man könnte evtl. hinter die Sprachen noch einen Filter setzen, wo man in "18+" und "jugendfrei" unterscheidet. Gewisse Schlüsselworte in den jeweiligen Sprachen, die jugendgefährdend erscheinen sorgen dafür, dass sie in das Sub-Sub-Netz "18+" verschoben werden.

Gibt es schon jugendfreie Suchmaschinen oder wäre Yacy dann die erste?
RunClear
 
Beiträge: 4
Registriert: Di Jul 22, 2008 9:28 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast