Ranking-Dateien

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Ranking-Dateien

Beitragvon datengrab » So Apr 13, 2008 7:33 am

T'schuldigung, wenn ich einfach mal so dumm dazwischenfrage: was ist eigentlich der Sinn dahinter die Ranking-Daten bei ein paar ausgewählte Peers zu sammeln?
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Ranking-Dateien

Beitragvon Orbiter » So Apr 13, 2008 10:46 am

dahinter steht folgendes Paper:
http://www.stanford.edu/~sdkamvar/papers/blockrank.pdf

..und mein Versuch vor über 2 Jahren, das Ranking zu verbessern. Als Ergebnis gab es bislang die Dateien, die in jedem Release in dem ranking/YBR/ - Verzeichnis liegen. Das Block-Rank Verfahren ist eine Vereinfachung des sehr komplexen und zeitaufwendigen Page-Rank Verfahrens. Um die Ranking-Dateien zu berechnen müssen analog zum Indexieren von Webseiten ein Indexieren von Referenzen statt finden.

Das Verfahren wurde im alten Forum sehr intensiv diskutiert, vor allem die Notwendigkeit des zentralen Sammelns der Ranking-Daten, zu der es meiner Meinung nach keine Alternativen gibt, und auch sonst niemand präsentiert hat. Damit hier die Anonymität gewahrt bleibt, wurde eine aufwändige Anonymisierung implementiert, die ein Weitersenden der Ranking-Dateien an zufällige andere Peers vornimmt, und diese dies weiter fortsetzen, aber mit einer gewissen Wahrscheinlichkeit einen Zielpeer vorsehen, von denen es drei gibt: den Suma-Lab Peer, Kaskelix und Uriel.

Um die Ranking-Dateien zu indexieren reichte der sehr spezialisierte YaCy-Indexierer von damals nicht aus, so das ich eine vollständig RAM-basierte Lösung baute, zu der ich meinen Rechner auf damals auch recht hohe 4.5 GB RAM aufrüstete. Half nicht, nach nur drei Monaten reichte das nicht mehr und seit dem können keine neue Ranking-Dateien mehr berechnet werden. Ich wollte das mal immer mit dem neuen Indexierer weiterbauen, was ich auch bestimmt mal tun werde. Derweil ist das Ranking aber auch ohne den YBR gar nicht schlecht.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Ranking-Dateien

Beitragvon miTreD » So Apr 13, 2008 11:05 am

miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Ranking-Dateien

Beitragvon miTreD » Di Apr 29, 2008 7:01 pm

Orbiter hat geschrieben:recht hohe 4.5 GB RAM
Mal ganz spekulativ: Wieviel wäre denn nötig? Kann man das schätzen?
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Ranking-Dateien

Beitragvon Orbiter » Mi Mai 18, 2011 5:16 pm

ich krame das hier mal wieder wegen SVN 7729/7730 raus: jetzt kann jeder Peer die Ranking Dateien erstellen.
Die Idee kam mir während des Linuxtages: Jeder Peer hat ja mit der Webstruktur eine Link-Datenbank. Was wir hier brauchen ist ein reverse Index der Verlinkung über alle Webstruktur-Datenbanken aller Peers. Die Idee war den Index pro peer einzeln zu berechnen und dann verteilt zu mergen. Das ist jetzt implementiert.
SVN 7724 hat ein Interface um den lokalen Verlinkungsindex über die /yacy/idx.json - API abzurufen.
SVN 7729 kann nun von all diesen Peers den Index laden und mergen.

Was jetzt noch fehlt ist eine sinnvolle Ranking-Berechnung aus dem merge der verteilten Verlinkungsindexen. Es ist eine in SVN 7729 implementiert die auch die Ranking-Dateien raus schreiben kann (zur Zeit auskommentiert) aber das ist noch nicht perfekt...
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Ranking-Dateien

Beitragvon bbtuxi » Fr Mai 27, 2011 4:06 pm

Wird den jetzt bei der aktuellen svn Version automatisch ein neues Ranking aktiv?

Muss ich das Ranking per Hand aktivieren?
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Ranking-Dateien

Beitragvon Vega » Fr Mai 27, 2011 4:15 pm

Soweit ich weis nein, das war experimenteller Code, und es gab Probleme - Michael (Orbiter) hat das (soweit ich das weis) wieder auskommentiert - genaueres weis nur er....

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Ranking-Dateien

Beitragvon Orbiter » Fr Mai 27, 2011 4:33 pm

yep wegen Problemen ist der Code, der den Block Rank berechnet wieder auskommentiert, aber der Code der die berechneten Ranking Tabellen auswertet ist aktiv. Das ganze wird nur dann bei der Suche wirksam, wenn man den YaCy Block Rank schieber ganz nach rechts macht. Ich bin noch nicht mit den Experimenten ganz durch aber das sieht nicht schlecht aus. Es kommt in den nächsten tagen ggf. ein Servlet mit dem man selbst die Ranking Tabellen berechnen kann. Die sind dann immer ein wenig individuell, sie hängen ab von den globalen Messwerten aus der Verlinkungsstruktur aber werden in Relation gesetzt mit Linkhäufigkeiten die man nur selbst im Peer hat. Um eine ausgeglichene Rankingtabelle zu erstellen muss man also einen ausgeglichenen Index haben, das versuche ich gerade. Die Tabellen kommen dann ins Release rein, aber jeder kann sie dann selber überschreiben.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast