Ranking... (Solr vs. RWI)

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Ranking... (Solr vs. RWI)

Beitragvon shni » Do Apr 13, 2017 2:48 pm

Hallo,

ich muss erstmal sagen, dass ich von YaCy recht begeistert bin, auch, wenn die erste Lernkurve extrem mühsam war. Aktuell läuft YaCy als privater Peer auf meinem Testserver und crawlt rund um die Uhr das www. Ich experimentiere dafür mit autmatisch aus einer anderen Datenbank erzeugten URL-Listen, um das Crawling zu optimieren und nicht so viel unnützen Ballast "aufzusaugen". Das klappt momentan ganz gut.

Was mich an YaCy in meinem Use-Case leider überhaupt nicht mehr überzeugt, ist das Ranking der Suchtreffer. Zwei Fragen dazu:

1. Stimmt meine Einschätzung, dass RWI-Ranking grundsätzlich für private Peers abgeschaltet ist und darum der Citation Reference Index inaktiv ist?

2. Kann man das RWI-Ranking vielleicht mit einfachen Mitteln für private Peers aktivieren? (z. Bsp. Code- oder Config-Änderung?)

Ich bin für jede Antwort und Hilfestellung dankbar! Auch, falls jemand noch Ideen hat, wie man die Qualität der Suchergebnisse anderweitig verbessern kann... gerne immer her damit!

Grüße
shni
 
Beiträge: 10
Registriert: Mo Apr 03, 2017 2:12 pm

Re: Ranking... (Solr vs. RWI)

Beitragvon Orbiter » Fr Apr 14, 2017 10:59 am

Hi,

lass mich die drei Dinge kurz auseinanderknoten:
- RWI-Ranking: das war unser vor-Solr Ranking, welches auf dem disttributed Index angewendet wurde. Ist immer noch aktiv für p2p Suche
- Solr Ranking: unser Default für lokale Suche. Bei einem privaten Peer gibt es keinen RWI-Index für p2p-Sharing und damit auch kein RWI Ranking, nur Solr Ranking
- Citation Reference: das war (ist) ein zweiter Index, welcher durch postprocessing angereichert wurde. Das Postprocessing war ein übler Ressourcenfresser und wurde daher wieder abgeschaltet. Prinzipiell ist die Funktion da, aber inaktiv. Das Ranking wird dann über Settings beim Solr Index aktiviert. Das ist aber kompliziert.

Insgesamt ist es wahr dass die Qualität der Suche mit dem Ranking korreliert. Ich empfehle da mal in /RankingSolr_p.html nachzugucken und in https://wiki.apache.org/solr/FunctionQuery nachzulesen was eine Funktion Query ist, denn damit hat man die flexibelste Art, das Ranking zu verändern. Die dazu notwendigen Attribute für die Funktionen findet man im Index Schema, das ist in /IndexSchema_p.html zu finden.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Ranking... (Solr vs. RWI)

Beitragvon shni » Sa Apr 15, 2017 10:56 am

Hi Orbiter,
Orbiter hat geschrieben:Citation Reference: das war (ist) ein zweiter Index, welcher durch postprocessing angereichert wurde. Das Postprocessing war ein übler Ressourcenfresser und wurde daher wieder abgeschaltet. Prinzipiell ist die Funktion da, aber inaktiv. Das Ranking wird dann über Settings beim Solr Index aktiviert. Das ist aber kompliziert.

Ist Citation Reference das, was beim Crawling unter "Citations (reverse link index)" steht? Nach einer Woche ist der Index bei mir schon auf über 30 Mio Einträge angewachsen. Wenn ich nicht irre, kan man den in den Einstellungen abschalten: ist das ratsam, um Ressourcen zu schonen, oder hat er noch irgend eine andere wichtige Funktion?

Danke jedenfalls für die Infos!
shni
 
Beiträge: 10
Registriert: Mo Apr 03, 2017 2:12 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste