Bewertungen / Ranking

Forum for developers

Bewertungen / Ranking

Beitragvon Marek » Do Jun 14, 2012 9:23 am

Hallo,

Bevor ich parallel am gleichen (vorbei) arbeite: Plant oder arbeitet jemand gerade bzw. in paar Wochen/Monaten schon am Bookmarking / Bewertungssystem ?

- administrativ:
Gerade bei Ontologien (http://forum.yacy-websuche.de/viewtopic.php?f=8&t=4422) wäre es auch gut nicht nur zusätzliche Suchwörter sondern auch Ranking/Scores beeinflussen zu können (z.B. "Dokumente aus Pfad x +10" "Ordner wahrscheinlichmuell > -10" etc).

- durch BenutzerInnen:
Gibt es ansonsten schon auch bei euch konkrete Überlegungen und Pläne für differenzierte Qualitätsbewertungen durch die NutzerInnen als die +/- Zeichen bzw. Bookmarken (z.B. Werten ausschliesslich in Bezug auf einzelne Suchwörter, Ordnen verschiedener Dokumente relativ zueinander etc.)?

Gruss,
Marek
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Bewertungen / Ranking

Beitragvon Orbiter » Do Jun 14, 2012 9:28 am

es gibt da gewisse Aktivitäten:

- Dominic aus KIT arbeitet an user-generated Annotationen. Das geht aber nicht in die Bookmarks sondern in den Triplestore
- Marc hat zuletzt was an den Bookmarks gemacht, die ursprünglich von Apfelmännchen gemacht wurden

Deine Ideen sind super, ggf. gehören die user-generated Annotationen und das Ranking in einen Topf.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Bewertungen / Ranking

Beitragvon Cominch » Do Jun 14, 2012 10:09 am

Hi Marek,

das ist sehr gutes Timing, ich arbeite tatsächlich an einem solchen System. Im moment ist geplant, dass per JavaScript Benutzer-Interaktionen ermöglicht werden, die yacy entsprechend auswertet und mit in das Ranking einfließen lassen soll.

Du sprichst auch in den anderen Threads von "Pfad" oder "Verzeichnis", in meiner Terminologie wäre das die "Quelle" (im Bookmark-System mit einem Filter-String versehen, der es ermöglicht, Quellen zu identifizieren und kategorisieren).

Die gesammelten Benutzerinteraktionen können/sollen auch an anderer Stelle gespeichert werden, z.B. parallel in einem Semantic Mediawiki etc.

Ich sehe da ganz viel Ideen-Überschneidung und Diskussionsgrundlage ;)

Gruß Dominic
Cominch
 
Beiträge: 11
Registriert: Fr Jan 14, 2011 5:01 pm

Re: Bewertungen / Ranking

Beitragvon Marek » Sa Jun 16, 2012 1:11 pm

Hallo,

Im moment ist geplant, dass per JavaScript Benutzer-Interaktionen ermöglicht werden, die yacy entsprechend auswertet und mit in das Ranking einfließen lassen soll.


Mit HTML5 und nativer unterstützung von Drag and Drop etc. ist sowas mittlerweile ja richtig laiengerecht (schieben/verankern von Suchergebnissen etc) und ohne viele Abhängigkeiten möglich.
Hast du da schon konkrete GUI-Entwürfe/Pläne? Würde da bei Bedarf/Gelegenheit mitarbeiten (wenn auch erst ab in nem Monat möglich).

Du sprichst auch in den anderen Threads von "Pfad" oder "Verzeichnis", in meiner Terminologie wäre das die "Quelle" (im Bookmark-System mit einem Filter-String versehen, der es ermöglicht, Quellen zu identifizieren und kategorisieren).


Genau sowas meinte ich auch, wofür (rudimentäre) Ontologien genutzt werden können - also nicht für allerkomplexeste und in solchem Kontext unnötige Features in der Searchengine (wie Orbiter schon meinte volle sind da nicht nötig aber umso komplizierter und mir fiele gerade nichts nötiges ein, was nicht mit Tripplestore ginge, solange ich (was ja in der obersten suchebene Standard ist) mit und verknüpfen kann) sondern zur Festlegung von Navigation und Rankingsystemen. Diese könnte mensch dann per laiengerechten Drag and Drop Editor zum Verknüpfen von Bedingungen und der aus ihnen folgenden zusätzlich vergebene Suchwörter/Einordnung/Bewertung basteln (das was ich mit "administrativ" meinte).

Die gesammelten Benutzerinteraktionen können/sollen auch an anderer Stelle gespeichert werden, z.B. parallel in einem Semantic Mediawiki etc.


Genau das gleiche überlege ich auch, um
- diese Daten leicht sichern zu können (da es von Menschen manuell generierte Daten sind, relativ kleine Datenmengen, aber hohe Qualität) ohne gleich den ja jederzeit automatisch widerherstellbaren Index mit zig GB mitnehmen zu müssen) und
- interoperabel zu machen überlege ich welcher XML-Standard sich zur Speicherung dafür eignet, weil andere offene Projekte wie z.B. Groupware/DMS-Systeme den gleichen verwenden könnten, davon profitierten alle

Es sollte nach meinen bisherigen Wünschen und Überlegungen möglich sein:

- Allgemein zu bewerten
<Rating>10 oder important, whatever</Rating>

- In speziellem Kontext zu bewerten:
<Rating keyword="X">important</Rating> oder evtl. besser in den Tags integriert: <dc:subject rating="10">TagXY</dc:subject>

- Zu taggen
z.B. <dc:subject><rdf:Bag><rdf:li>Tag1</rdf:li><rdf:li>Tag2</rdf:li></rdf:Bag></dc:subject>

- Teile markieren
ergibt nicht nur bei großen Dokumenten sinn, weil so eine richtig effizient nutzbare Zitateverwaltung, weitergabe und verarbeitung möglich ist
Z.B. <cite>Diese Stelle ist ein wichtiges Zitat aus dem gebookmarkten Dokument</cite>

Hast du bezüglich Format und Standard schon Überlegungen und genauere Recherchen angestellt?
(um diese Metadaten ergänztes) XBEL, XMP, Bibliographic Ontology Specification (BiBo) oder eigenes RDF-Format?

Mein Favorit ist bisher BiBo: http://bibliontology.com/specification

RDF-basiertes hätte auch den Vorteil. dass SemanticMediaWiki den Import bzw. Verarbeiten davon von Haus aus kann und dort eine Verarbeitung mit den hier erarbeiteten Konzepten mit SemanticForms möglich wäre. Aber XBEL (bisheriges Bookmark-Format) lässt sich notfalls per XSLT ja auch umwandeln, falls bisherige EntwicklerInnen sehr daran hängen sollten...

Schon konkretes? Falls ja, kannst du mir das bei Gelegenheit mal zugänlich machen? Wenn nicht, was hälst du im Wiki zur weiteren gemeinsamen Findung und Diskussion eine entsprechende Seite im Wiki oder Etherpad zu machen?

Das ganze eignet sich dann auch um z.B. sowas wie gezielte "Recherchen" oder "Leuchtkästen" zu verwalten, also aus der Suche heraus Ergebnisse in speicherbare, exportierbare Container zu schieben (z.B. für Quellenliste oder Weitergabe von anderen in Auftrag gegebenen Recherchen). Also quasi Bookmarksammlung zu einer bestimmten Recherche a la "Recherche für Zeitung x zu Thema m im März 2012") und nicht allgemeiner Natur wo sich ein Tagging lohnt, also eben ohne dass mensch für diese Recherche einen eigenen Tag vergeben muss (der für die anderen nicht immer Sinn ergibt und Aufmerksamkeit von den echten allgemeinen Tags stiehlt) oder extra für die Ergebnisse Tabellenkalkulationslisten anlegen und viel copy pasten muss.

Gruesse
Marek
Zuletzt geändert von Marek am Mi Aug 08, 2012 5:15 am, insgesamt 1-mal geändert.
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Bewertungen / Ranking

Beitragvon Marek » Di Jun 19, 2012 1:22 pm

Bzgl. Annotation: Mal bei Gelegenheit schauen, ob nicht einige gute (GUI-)Ideen und Formate in http://www.documentcloud.org/public/search stecken ...
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Bewertungen / Ranking

Beitragvon Marek » Mi Aug 08, 2012 5:46 am

Langsam wirds bei mir etwas konkreter und ich fange an folgendem an zu arbeiten:

Web-GUI sowie Nutzung eines RDF-Datenformats für

- manuelle Sortierung (also Bewertung) der Suchergebnisse sowohl allgemein (das Dokument A ist wichtiger als Dokument B) sowie kontextspezifisch (nur bzgl. Suchwort, z.B. beim Suchwort "Haarspalterei" sind A, B und C wichtig, B wichtiger als A)

- Markierung wichtiger Zonen oder Textbereiche (Zitate)

- Annotation mit Tags und Notes

- sowie Bewertung der Dokumente bzgl. verschiedener weiterer Kriterien (und deren auch für NutzerInnen einfach bedienbare Festlegung)

Das würde ich gerne über den Winter sowohl in SematicForms für SemanticMediawiki wie auch für Yacy umsetzen, so dass beide das selbe RDF-Format (vermutlich Bibo) verwenden und interoperabel werden.

Falls du da schon Ergebnisse hast, würde ich mich freuen die noch im August oder September zu sehen, bevor ich parallel Sachen entwickle, die du vielleicht schon ähnlich fertig hast bzw. du vielleicht bessere Ideen hast.
Marek
 
Beiträge: 27
Registriert: Mi Jan 25, 2012 1:27 am
Wohnort: Berlin

Re: Bewertungen / Ranking

Beitragvon Orbiter » Mi Aug 08, 2012 10:16 am

Ranking aufgrund von Semantik ist zur Zeit nicht geplant, aber auch nicht schlecht. Wir müssen uns überlegen wie wir das Solr-Ranking anständig beeinflussen können, und das geht ja über sogenannt 'boosts', die Treffer in bestimmten Feldern mehr oder weniger stark beeinflusst. Du könntest dein Schema also als 'Boost' definieren. Wie wir hier genau vorgehen sollen weiss ich auch noch nicht.

Ein zweites Thema ist ein post-ranking so wie es bislang auch in YaCy ist: nachdem man mit den solr-boosts eine Reihenfolge bekommen hat, werden die URL-hashes zunächst nur aufgelistet und nach weiteren Kriterien 'nachgerankt': das macht beim pagerank Sinn. Dafür sammelt YaCy ja schon seit einiger Zeit eine Verlinkungsstruktur, die in jedem Peer nur für die innerhalb dieses Peers gesammelten Seiten zur Verfügung steht. Hiermit liesse sich also ein lokales pagerank aufbringen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Bewertungen / Ranking

Beitragvon apfelmaennchen » Do Aug 30, 2012 2:49 pm

Auch wenn ich mich nicht so regelmäßig hier melde, arbeite ich "heimlich" an den YaCy Bookmarks weiter.

Konkret sind die Bookmarks intern momentan so ausgelegt, dass sie recht effizient jede User-Annotation zu einer URL aufnehmen können und auch sollen (das API via HTML ist noch nicht vollständig vorhanden). Insbesondere sind die YaCy Bookmarks auf einen Mehrbenutzerbetrieb (auf einem Peer) ausgelegt, so kann jeder Nutzer seine eigenen Annotations ablegen und verwalten, der Peer könnte aber sehr wohl über alle User konsolidieren. Sprich spezifische User-Annotationen aufzunehmen und als RDF (Bibo) auszuspucken wäre durch eine einfache Ergänzung des API (zwei Servelets) umzusetzen.

Um nach diesen "Kriterien" einfacher suchen/sortieren zu können, habe ich die Bookmarks (noch lokal bei mir im Test) mit einem Index ausgestattet. Dies war insb. im Zuge des jüngst fertiggestellten DMOZ-Importers (ebenfalls noch lokal bei mir im Test) notwendig, da die bisherige Folder/Tag Implementierung bei > 500.000 Bookmarks an ihre Grenzen stößt. Die Kategorisierung durch DMOZ ist recht umfassend. Zusätzlich hätte ich gedacht, dass man über eine Abstands- bzw. Ähnlichkeitsfunktion (z.B. basierend auf Term Frequency und weiteren Merkmalen) auf die YaCy Document Klasse eine entsprechende statistische Kategorisierung nicht in DMOZ enthaltener URLs hinbekommen sollte. Vorteil dieser Lösung wäre, dass dies auch für eigene (manuelle) Kategorisierungen funktionieren würde, da Basis immer die Bookmarks des jeweiligen Anwenders wären. Außerdem ließe sich mit einer solchen Ähnlichkeitsfunktion auch das an anderer Stelle angesprochene Thema Alerts bei Veränderung einer Seite entsprechend elegant lösen. Hier sprechen wir also von einer Mischung aus manuellen Annotations und statistischen Ableitungen daraus.

Aber XBEL (bisheriges Bookmark-Format) lässt sich notfalls per XSLT ja auch umwandeln, falls bisherige EntwicklerInnen sehr daran hängen sollten...

Intern arbeiten die Bookmarks mit dem YaCy Tables Interface. XBEL ist eines von mehreren Ausgabeformaten (XML, HTML, JSON), die von YaCy Bookmarks unterstützt werden. Grundsätzlich wäre es recht einfach, ein weiteres Format, z.B. RDF mit Annotations anzubieten. Bisher hatte ich in diesem Zusammenhang http://www.w3.org/2001/Annotea/ als anvisiertes und wohl beschriebenes Ziel im Auge.

Die derzeitige Lösung des TripleStores als RDF-File, welches durch Jena ins RAM geladen wird, dürfte schon durch einen einfachen Import des DMOZ Dumps (2 GB RDF-XML) an seine Grenzen stoßen. Daher ist dies (für mich) so noch keine Alternative zu den Bookmarks. Vielleicht brauchen wir einen Jena-DB-Connector für YaCy-Tables? Oder wir setzten TDB ein?

Viele Grüße!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Bewertungen / Ranking

Beitragvon Orbiter » Do Sep 06, 2012 10:07 pm

apfelmaennchen hat geschrieben:Auch wenn ich mich nicht so regelmäßig hier melde, arbeite ich "heimlich" an den YaCy Bookmarks weiter.


oh das ist toll, sorry hab noch nicht die Zeit für die Antwort gefunden...

apfelmaennchen hat geschrieben:Konkret sind die Bookmarks intern momentan so ausgelegt, dass sie recht effizient jede User-Annotation zu einer URL aufnehmen können und auch sollen (das API via HTML ist noch nicht vollständig vorhanden). Insbesondere sind die YaCy Bookmarks auf einen Mehrbenutzerbetrieb (auf einem Peer) ausgelegt, so kann jeder Nutzer seine eigenen Annotations ablegen und verwalten, der Peer könnte aber sehr wohl über alle User konsolidieren. Sprich spezifische User-Annotationen aufzunehmen und als RDF (Bibo) auszuspucken wäre durch eine einfache Ergänzung des API (zwei Servelets) umzusetzen.


Das Thema Mehrbenutzerbetrieb wird ja kaum betrachtet, so weit ich das sehe. Eine Anwendung sehe ich nur im Zusammenhang mit dem Crawlen von zu-authentifizierenden Seiten. Ich werde immer wieder gefragt ob wir 'geschützte' Bereiche Crawlen können. Das macht nur Sinn wenn wir die gleichen User Accounts kennen wie diese 'geschützten' Bereiche. Eine Anwendung sehe ich nur im Intranet, und da bräuchten wir für die User-Accounts eine Anbindung bsp. an Active Directory (windows) bzw. mit einem LDAP Client. Wenn sich dafür ein Experte finden würde wäre ich sehr froh! Einen LDAP-Client in Java gibts ja, fehlt nur noch ein Verständnis für die Authentifizierungsprotokolle.

apfelmaennchen hat geschrieben:Um nach diesen "Kriterien" einfacher suchen/sortieren zu können, habe ich die Bookmarks (noch lokal bei mir im Test) mit einem Index ausgestattet. Dies war insb. im Zuge des jüngst fertiggestellten DMOZ-Importers (ebenfalls noch lokal bei mir im Test) notwendig, da die bisherige Folder/Tag Implementierung bei > 500.000 Bookmarks an ihre Grenzen stößt.


Ich empfehle für die Suche auch den integrierten Solr zu benutzen. Das ist nicht schwer zu machen.

apfelmaennchen hat geschrieben:Die Kategorisierung durch DMOZ ist recht umfassend. Zusätzlich hätte ich gedacht, dass man über eine Abstands- bzw. Ähnlichkeitsfunktion (z.B. basierend auf Term Frequency und weiteren Merkmalen) auf die YaCy Document Klasse eine entsprechende statistische Kategorisierung nicht in DMOZ enthaltener URLs hinbekommen sollte. Vorteil dieser Lösung wäre, dass dies auch für eigene (manuelle) Kategorisierungen funktionieren würde, da Basis immer die Bookmarks des jeweiligen Anwenders wären. Außerdem ließe sich mit einer solchen Ähnlichkeitsfunktion auch das an anderer Stelle angesprochene Thema Alerts bei Veränderung einer Seite entsprechend elegant lösen. Hier sprechen wir also von einer Mischung aus manuellen Annotations und statistischen Ableitungen daraus.


hm, hört sich irgendwie spannend an, weiss aber nicht was wir da machen sollen. Alerts auf Bookmark-Content-Changes deutet auf eine ganz neue Anwendung im Bereich Monitoring an. Die Bookmarks sind dazu sicherlich die richtige Wahl um die zu beobachtenden URLs abzulegen.

apfelmaennchen hat geschrieben:
Aber XBEL (bisheriges Bookmark-Format) lässt sich notfalls per XSLT ja auch umwandeln, falls bisherige EntwicklerInnen sehr daran hängen sollten...

Intern arbeiten die Bookmarks mit dem YaCy Tables Interface. XBEL ist eines von mehreren Ausgabeformaten (XML, HTML, JSON), die von YaCy Bookmarks unterstützt werden. Grundsätzlich wäre es recht einfach, ein weiteres Format, z.B. RDF mit Annotations anzubieten. Bisher hatte ich in diesem Zusammenhang http://www.w3.org/2001/Annotea/ als anvisiertes und wohl beschriebenes Ziel im Auge.


bei RDF wirds spannend. du sprichst es an:

apfelmaennchen hat geschrieben:Die derzeitige Lösung des TripleStores als RDF-File, welches durch Jena ins RAM geladen wird, dürfte schon durch einen einfachen Import des DMOZ Dumps (2 GB RDF-XML) an seine Grenzen stoßen. Daher ist dies (für mich) so noch keine Alternative zu den Bookmarks. Vielleicht brauchen wir einen Jena-DB-Connector für YaCy-Tables? Oder wir setzten TDB ein?

sehr richtig beobachtet, hier sollte eine offene Baustelle sein. Die mit Jena ins RAM geladenen RDF Tripel sind leider nur ein Quick-Hack und sind unter starkem Zeitdruck für den Vortrag an der Humboldt-Uni Berlin entstanden. Hier gibt es (die mit Dominic geteilte) Idee, die RDF Tripel als 'Beilage' zu den Solr Daten in die neuen Metadaten zu legen. Da ist ja nun massig Platz. Die Ablage der Tripel muss so sein, dass man daraus die gleichen Facetten machen kann wie so wie es momentan ist. Dazu muss ich nochmal nachdenken wie es richtig geht.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Bewertungen / Ranking

Beitragvon apfelmaennchen » So Sep 09, 2012 9:26 am

Das Thema Mehrbenutzerbetrieb wird ja kaum betrachtet, so weit ich das sehe. Eine Anwendung sehe ich nur im Zusammenhang mit dem Crawlen von zu-authentifizierenden Seiten.

Naja, ich sehe auch eine Anwendung beim Aufbau eines kontrollierten Index. Oder eben zum Sammeln von Metadaten, die durch User entstehen - Stichwort Browser-Integration. LDAP oder Active Directory wäre natürlich richtig cool...

Ich empfehle für die Suche auch den integrierten Solr zu benutzen. Das ist nicht schwer zu machen.

Schau ich mir an, versprochen! Mit Solr habe ich mich eh noch nicht genug befasst.

Alerts auf Bookmark-Content-Changes deutet auf eine ganz neue Anwendung im Bereich Monitoring an.

Ich glaube, dass Bedarf besteht, YaCy CrawlStarts konfortabler zu verwalten. Außerdem habe ich immer noch den Anwendungsfall "spezialisierter, teil-verwalteter Index" vor Augen. Zusätzlich könnte man mit der Ähnlichkeits- bzw. Abstandsfunktion statt nach Suchworten gleich mit einer Beispielseite oder einem Referenztext nach ähnlichen Seiten crawlen bzw. suchen lassen.

bei RDF wirds spannend

Öffentliche Bookmarks stehen jetzt via http://yacy-peer:8090/YMarks.rdf zur Verfügung!
Intern kann man mit der Klasse YMarkRDF einen SnapShot der Bookmarks als Jena RDF Model bekommen, falls man hier YaCy-intern mit weiter arbeiten wollen würde. Bei Bedarf gebe ich gerne weitere Infos...

die RDF Tripel als 'Beilage' zu den Solr Daten in die neuen Metadaten zu legen.

Ich persönlich würde auf eine 'Beilage' verzichten und entweder auf TDB gehen, oder auf Basis des BEncodedHeap einen eigenen persistenten TripleStore bauen. Wenn wir die Jena-Schnittstelle bedienen müssen wir nicht das Rad neu erfinden.

apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Bewertungen / Ranking

Beitragvon Orbiter » Do Nov 29, 2012 1:36 pm

Hallo Marek, hast du schon was? muss ja nicht perfekt sein!
Ich muss mich jetzt auch mehr ans Solr Ranking machen, erst einmal mache ich die Boosts einstellbar.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron