Suche = Problem ?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Suche = Problem ?

Beitragvon thq » Sa Aug 16, 2008 1:06 pm

Kann sein das ich schon mal gefragt habe, finde es aber nicht mehr.

Peer1 kennt das Wort A und Peer2 das Wort C. Beide Peers kennen für das Wort mehrere tausend URLs.

Es wird wird nach A gesucht und Peer1 liefert die 10 besten URLs für das Wort A, so wie es sein soll.

Es wird nach A und C gesucht, jetzt sucht Peer1 wieder die besten 10 URLs für das Wort A und Peer2 die besten 10 URLs für das Wort C.

Problem ?: Beide suchen jetzt die jeweils besten URLs zu dem Wort das sie kennen, beide wissen aber nichts zum zweiten Wort. Somit könnten die besten URLs für beide Wörter viel weiter hinten liegen oder ganz andere sein was YaCy so aber nicht mitbekommt, weil ja nur die 10 besten URLs zu dem jeweiligen Wort verschickt werden.

Ist das so (ich hoffe nicht), oder wird das anders gelöst ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suche = Problem ?

Beitragvon DanielR » Sa Aug 16, 2008 9:41 pm

es müssen doch immer alle Wörter vorkommen!?!
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Suche = Problem ?

Beitragvon thq » Sa Aug 16, 2008 10:23 pm

Wenn das so ist, wie soll dann ein reiner DHT-Peer funktionieren ?

Meiner lauf so langsam "clean", heißt es sind nur noch die Wörter da die auch zu meinen Peer gehören.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suche = Problem ?

Beitragvon Orbiter » Sa Aug 16, 2008 11:05 pm

kooperative Mehrwortsuche: ich dachte wir hätten das so oft diskutiert das die aktuelle Lösung bekannt ist. Nachdem ich den zunächst von mir favorisierten 'Round Trip' nicht realisiert habe (weil so komplex und zeitaufwendig in der Realisierung) kam ich auf die Variante die nun implementiert ist: 'Search Abstracts' als Zwischenergebnisse und 'Secondary Searches' zur Auswertung. Also:
- bei der Suche werden alle Suchwörter immer an die Clients geschickt, und es werden von diesen nur die angefragten Konjuktionen als Ergebnis geliefert. Wie schon richtig angemerkt wurde, kann es dann bei einem vollständig verteiltem DHT eigentlich gar keine Lösung geben. Was wir hier brauchen ist eine verteilte Konjunktionsbildung. Daher liefert ein Client im Falle einer Suche mit mehreren Wörtern zusätzlich zum (potentiell leerem) Ergebnis einen 'Index Abstract': das ist eine komprimierte Liste der URL-Hashes ohne Ranking und ohne Konjunktion zu jedem Suchwort oder nur einem einzigen Suchwort, wenn der Client bemerkt das ein bestimmtes Wort zu seiner DHT-Position gehört-
- der suchende Peer wertet die Index Abstracts aus, indem er die URL-Hash listen quer über die Peers verschränkt, d.h. die Konjunktion kann übner verschiedenen Peer-Ergebnisse hinweg errechnet werden. Als Ergebnis entsteht eine Liste der Art: 'Peer X hat eine URL, in dessen Content ein Wort A vorkommt, und Peer Y hat die gleiche URL und dort kommt Wort B vor'.
- Nun erstellt der suchende Peer eine zweite Liste von target-Peers, bei denen er weiss das diese einen partiellen Treffer der lokal vorgenommenen Konjunktion besitzen. Diese werden nun also ein zweites mal gefragt, und die Peers liefern nun nach Ranking geordnete URL-Listen zurück. Das nenne ich 'Secondary Search'
- Der suchende Peer speichert die URLs unter allen Suchwörtern ab, das Ranking wird über die Summe aller Ergebnisse des Secondary Searches gemacht.

Das ganze funktioniert seit bestimmt über einem Jahr. Also: kein Problem.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Suche = Problem ?

Beitragvon thq » Sa Aug 16, 2008 11:58 pm

Wie im ersten Post schon stand, ich wusste da war was.

Das hier sollte am besten in einer FAQ sonst geht es wieder unter.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suche = Problem ?

Beitragvon thq » So Aug 17, 2008 10:16 pm

Können wir auf der AccessTracker_p.html Seite auch die 'Index Abstract' Ergebnisse anzeigen ?

Und nochmal: mir ist immer noch nicht klar ob immer der 'Secondary Search' bei ein Peer ausgeführt wird oder nur wenn die normale Suche keine Ergebnisse lieferte.

Kann man die Suche so abändern das diese nur auf dem 'Secondary Search' aufbaut ?
Ich glaube das diese Ergebnisse besser sind. Könnte man das nicht so ändern das man das einstellen kann wie gesucht werden soll ? Ich warte auch länger, das stört mich nicht.

@Orbiter Danke
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Suche = Problem ?

Beitragvon Orbiter » So Aug 17, 2008 11:23 pm

ich baue mal ggf was um genauer beobachten zu können was passiert. Die Suche komplett auf den secondary search aufzubauen ist zumindest in Spezialfällen nicht sinnvoll, beispielsweise in Sciencenet wo noch kein DHT aktiv ist. Aber die Suche komplett darauf zu setzten (bzw. bei mehr als einem Suchwort) würde das Timing anspruchsvoller machen. Ggf. könnte ich zunächst mal über einen Flag nachdenken, um diese Situation mal testen zu können.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Suche = Problem ?

Beitragvon thq » Mo Aug 18, 2008 1:02 am

Das Flag ist ja das was ich mit dem einstellen meinte. Da ich glaube das das mit dem 'Secondary Search' länger dauert sollte jeder die Auswahl haben wie er den suchen möchte. Wenn da was kommt würde ich mich freuen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste