Planung für ein 'YaCy 2.0'

Ereignisse, Vorschläge und Aktionen

Planung für ein 'YaCy 2.0'

Beitragvon Orbiter » Do Jul 22, 2010 12:51 am

in anderen Threads habe ich dazu ja schon rumgesponnen, will das hier nochmal erklären:
mir schwebt es vor dass man Module in YaCy identifizieren kann und diese dann in eigene Libraries steckt, die so von YaCy separiert werden können dass sie auch in anderen Projekten Verwendung finden können. Unter den vielen Möglichkeiten Module zu identifizieren gibt es zwei die besonders nützlich wären: Daten-Input (Dokumentensemantik) und Daten-Output (Suchergebnisretrieval):
YaCy_2.0_Input_Output.png
YaCy_2.0_Input_Output.png (42.34 KiB) 2933-mal betrachtet

Die beiden Komponenten will ich mal im Detail betrachten:

Der Dateninput besteht momentan nach dem Crawler aus den Parsern, die in ein internes Metadatenformat übersetzen. Wir haben hier noch lange nicht alle Möglichkeiten die man bei der Verarbeitung der Daten haben könnte und vor allem haben wir kein flexibles Index Profil wie es lucene und andere Suchmaschinen haben. Statt das nachzuahmen würde ich den Weg gehen wollen _jedes_ nur erdenkliche Index Profile gleichzeitig abzubilden indem man dafür Vokabularien benutzt. Zur Handhabung solcher Vokabularien nimmt man ein passendes Datenformat welches mit RDF gegeben ist. Zur Bearbeitung der RDF tripel nimmt man am besten Jena.
YaCy_2.0_Cider_Architecture.png
YaCy_2.0_Cider_Architecture.png (100.15 KiB) 2933-mal betrachtet

Wir werden damit das beste Semantic Web Retrieval Tool bekommen was man sich momentan vorstellen kann, sage ich mal. Die Semantic Web Leute sollten sich danach die Finger lecken. Das Ding wäre dann sowas wie eine Hochzeit aus Jena, Tika und den YaCy Parsern

Der Datenoutput von YaCy ist die Suche und hier ist eine API zur Einbindung der Suchergebnisse in andere Anwendungen sinnvoll:
YaCy_2.0_Cora_Embedding.png
YaCy_2.0_Cora_Embedding.png (83.91 KiB) 2931-mal betrachtet

Mit CORA kann dann ein Retrieval-Modul in andere Anwendungen geladen werden und von dort können die Suchergebnisse aus YaCy genutzt werden. Man kann sich so bsp. ein Client für eine Intranet/Filesystemsuche oder auch leichtere Einbindungen der YaCy Suche in PHP oder anderen technischen Weiterverarbeitungen vorsehen (bsp. DB-Booster). CORA beinhaltet ganz einfach einen http client, einen xml Parser und eine Abbildung von Opensearch auf RSS:
YaCy_2.0_Cora_Architecture.png
YaCy_2.0_Cora_Architecture.png (34.14 KiB) 2933-mal betrachtet

Cora ist also dann Teil von YaCy aber kann auch extern von YaCy genutzt werden.

Wenn man nun noch das UPnP-Modul herbeinimmt hätten wir bereits 3 externe Projekte zu YaCy, sozusagen YaCy sub-Projekte:

YaCy.CORA:
sixcooler und ich

YaCy.CIDER:
Dominic (aus KIT) und ich

YaCy.UPnP:
Copro und Lotus

Die sub-Projekte würden am besten als git-repositories gehostet, das ist modern und entspricht überhaupt der Idee des dezentralen Arbeitens. Jede Instanz eines git repositories ist schon ein branch und commits sind branch merges. Die YaCy Subprojekt repositories würde ich hier hosten: http://github.com/yacy
Da müsste ich aber so wie ich das verstanden habe gar keine Accounts für die Subprojekt-Maintainer hin machen, die entsprechenden Code-Updates kommen da durch einen Branch merge hin. So ganz habe ich das aber mit git auch noch nicht geblickt. Sollten wir mal ausprobieren. Jedenfalls wird der linux kernel auch nun in git gepflegt.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Planung für ein 'YaCy 2.0'

Beitragvon ribbon » So Aug 01, 2010 12:30 pm

das wird ja immer mehr zu einem expertenmodell, kein Wunder, dass noch keiner geantwortet hat.
SVN ist wesentlich einfacher als GIT, ich würde bei SVN bleiben.
Cidre macht mich besoffen und Cora will ich mal wieder besuchen.
Dass Tika in Jena heiraten will, habe ich auch noch nicht gehört.

Wenn YaCy Content Integrieren soll (über CIDER) und dann den Content auch wieder ausspucken soll (über CORA),
dann ist das ein Storage Tool? Dezentral?

Vielleicht kann man mal ein Anwendungszenario beschreiben?

Du hast File Sharing angesprochen. Ein Unternehmen hat einen Sharepoint mit vielen Dateien und will nun diese Über das CIDRE Modul in YaCy geben.
Damit ist die Geheimhaltung zwar weg, aber nehmen wir mal Wiki Leaks, wenn die die Afghanistan Dokumente nicht zentral hosten wollen, sondern deren Suche und das Laden in YaCy erreichen wollen, dann pluggen die User CORA ein und Wikileaks trinkt einen Schluck vom Cidre?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Planung für ein 'YaCy 2.0'

Beitragvon Quix0r » Sa Sep 11, 2010 2:55 am

ribbon: Orbiter ist Diplominformatiker, fuer ihn ist es verstaendlich (und ist nicht zurechtweisend an dich und boes an Michael gemeint). Ich habe auch nicht vor, dich zurecht zu weisen, das geht meistens nicht gut aus.

Ich finde es ausgesprochen gut von ihm, dass er seine Ideen und Planungen mit uns hier im Forum diskutiert (auch wenn ich als Fachinformatiker nur schwer folgen konnte) und ich denke, er weiss was er tut. Daher gehe ich mal davon aus, dass er vieles im Vorwege gut durchdacht hat und er auch mehrere passende Design Pattern mit eingeplant hat.

ribbon: Wenn du nicht weisst, was ein Design Pattern (Entwurfsmuster) ist, suche einfach mal mit deiner Node nach dem deutschen Wort. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Planung für ein 'YaCy 2.0'

Beitragvon Orbiter » Mi Feb 16, 2011 1:09 pm

Update:
Orbiter hat geschrieben:YaCy.CORA:
sixcooler und ich

CORA ist ja mittlerweile in etwa fertig.

Orbiter hat geschrieben:YaCy.CIDER:
Dominic (aus KIT) und ich

Beim Thema CIDER hat Dominic eine schicke sache gebaut, die perfekt in meine These "Suchmaschinen nutzen nicht das Web 3.0, sie erzeugen das Web 3.0/semantic Web" passt: Der YaCy Proxy reichert Webseiten mit RDFa anotationen an und erzeugt damit eine 'semantische' Webseite die mit entsprechenden Browser-Plugins reichhaltiger angezeigt werden kann. Diese Technik soll auch in YaCy genutzt werden um die bisheriger LURL-DB zu ersetzen und statt dessen angereicherte Metadaten speichern kann. Das Ergebnis: mehr Navigatoren werden möglich.
Im Endergebnis geht das in eine neue Richtung die ich 'Wissensmanagement' nenne: wie erzeugt man aus Information Wissen und welche Rolle spielt die Suchmaschine dabei?

Orbiter hat geschrieben:YaCy.UPnP:
Copro und Lotus

das scheint ja auch nun prima zu funktionieren.

Ich überlege mir hier noch ein wenig mehr wie man das ganze YaCy-2.0 Thema im Themengebiet 'Wissensmanagement' ansiedeln kann und hier nun sagen kann:
- mit YaCy 1.0 haben wir die dezentrale Suchmaschinentechnik überzeugend realisiert
- mit YaCy 2.0 gehen wir vom clonen existierender Technik zur Innovation über: wie erzeugt man Wissen?

Erzeugung von Wissen aus Information
Hier scheinen folgende Komponenten notwendig zu sein:
- Informationen validieren
- Informationen vernetzen
- Information verwerten
-> können Informationen validiert und mit bestehendem Wissen vernetzt werden, so entsteht neues Wissen.

bevor man Informationen validieren kann, muss sie ggf. mit Taxonomien und Vokabularien in einer Standard-Sprache des Web referenziert werden. Genau das schaffen wir mit Jena und RDFa. Das Vernetzen wird mit der Suche möglich. 'Wissen' kommt dann heraus wenn wir einen Weg finden das ganze dann so darzustellen dass der Nutzer den Eindruck bekommt, er habe nicht nur was 'gefunden' sondern etwas neues 'gelernt'.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Planung für ein 'YaCy 2.0'

Beitragvon Low012 » Mi Feb 16, 2011 2:32 pm

Bild
Schöne Perspektive! Damit wäre dann auch geklärt, was YaCy (außer dem P2P-Ansatz) von anderen Suchmaschinen (in Zukunft) unterscheidet. ;)

Wirre Gedanken einfach mal runtergeschrieben:
Man müsste es dann nur so verpacken, dass nicht nur Spezialisten es nutzen können. Die Eingrenzung auf bestimmte Domains in YaCy durch die Navigatoren ist ja auch schonmal was, das etwas vereinfacht, was bei Google zwar auch geht, was aber kaum wer nutzt, weil er es in den Suchstring verpacken muss und nicht einfach klicken kann. Eine zusätzliche Frage wäre also: Wie schafft man es, dass die Möglichkeiten, die sich bieten, möglichst intuitiv genutzt werden können? Die Slashtags von http://blekko.com/ sind ja z.B. eine ganz einfache Idee, die die Bedienung aber viel flüssiger macht als irgendwelche Formulare mit "Advanced Options". Über sowas nachzudenken ist auf jeden Fall auch (oder besonders?) was für Leute, die nicht programmieren können/wollen, sondern "nur" Anwender sind oder sich schonmal näher mit Mensch-Maschine-Schnittstellen beschäftigt haben.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Planung für ein 'YaCy 2.0'

Beitragvon ribbon » Mo Apr 25, 2011 6:34 pm

hat noch keiner an eine cpp lib gedacht für suche und dht exchange, das wäre eine 2.0.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Planung für ein 'YaCy 2.0'

Beitragvon Lotus » Mo Apr 25, 2011 7:37 pm

Mit der umfangreichen API ist ein Zugang zu YaCy in jeder Programmiersprache möglich: http://yacy.net/de/API.html
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Planung für ein 'YaCy 2.0'

Beitragvon Orbiter » Mi Nov 23, 2011 12:51 pm

vor einem YaCy 2.0 kommt natürlich ein YaCy 1.0

Die Planungen dafür im Kooperation mit der fsfe laufen und sind fortgeschritten. Wenn alles klappt gehen erste warm-up Infos an Journalisten am Freitag raus und 1.0 kommt dann am kommenden Montag online.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast