Anzeige der Domain auf Platz 1

Ideen und Vorschläge sind willkommen.

Anzeige der Domain auf Platz 1

Beitragvon Lotus » So Jun 02, 2013 2:24 pm

Ich beobachte häufig, dass anstatt der Adressleiste das Suchfeld genutzt wird, und dann das erste Suchergebnis angeklickt wird. Das ist natürlich auch ein Benchmark für YaCy. Der Solr host_s Boost kommt erst bei Werten 1E5/1E6 in die gewünschte Region, ist aber eher unbefriedigend.

Meine Idee dazu:
Falls nur ein Suchwort eingegeben wurde, wird bei der Ergebnisdarstellung ein Snippet des Suchwortes + lokale TLD und ein Snippet der Seite des Suchwortes + globale TLD (com/net/org) dargestellt.

Beispiel:
Suche nach "Apfel" (lokale Sprache: de)
Es werden sofort die Snippets von apfel.de/com/net/org geladen. Zunächst werden com/net/org untereinander gerankt und der Sieger ausgewählt. Dann wird der Sieger mit apfel.de gerankt, und die Darstellungsreihenfolge ermittelt.
Die beiden ermittelten Ergebnisse könnten dann horizontal nebeneinander dargestellt werden.
Wenn eine Seite zu wenig Inhalt enthält, muss diese nicht dargestellt werden (apfel.de ist beispielsweise blank).

Das könnte auch auf Mehrwortsuchen ausgeweitet werden. Beispielsweise "Apfel Kuchen Rezept". Jetzt kommen 3*4 Domains in den Ranking-Pool und werden nur dargestellt, wenn sie wirklich alle Wörter enthalten.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Anzeige der Domain auf Platz 1

Beitragvon PCA42 » So Jun 02, 2013 3:40 pm

Gedankenübertragung? Die Idee habe ich Michael auch schon diese Woche erzählt, würde aber bei der Suche nach einem Wort auch den Titel der Seite mit einbeziehen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Anzeige der Domain auf Platz 1

Beitragvon Lotus » So Jun 02, 2013 7:31 pm

Ja, wahrscheinlich Gedankenübertragung. Titel ist ein gutes Stichwort. Ich spinne mal weiter.

Während der Eingabe werden schon die in Frage kommenden Seiten als Auto-Vervollständigen mit URL und Seitentitel dargestellt. Pfeiltaste runter, und Enter führen direkt zur Webseite. Wie in der Adresszeile bei aktuellen Browsern (Firefox, Chromium).
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Anzeige der Domain auf Platz 1

Beitragvon Orbiter » So Jun 02, 2013 7:55 pm

also hier kommen zwei Sachen zusammen:
- PCA42: post-crawling von verlinkten Seiten nach Suchresultatanzeige
- Lotus: pre-crawling von geratenen Seiten vor Suchanforderung

Das sind zwei verschiedene Sachen aber von der Implementierung sehr ähnlich, denn ein 'richtiges' pre-crawling kann man sich aufgrund der Suchzeit nicht leisten und würde genau wie das post-crawling über eine Heuristik implementiert werden. Die Heuristiken haben die Eigenschaften, dass die zum Crawler hinzugefügten Seiten einen Link zum Such-Event haben, und geladene Seiten dort sofort mit eingegliedert werden können. So können Heuristik-Ergebnisse noch während der Ergebnisanzeige in die Ergebnisliste hinzugefügt werden.

Überaschenderweise zeigte ein Blick in den Code schon eine Lösung für das post-Crawling:
https://gitorious.org/yacy/rc1/commit/0 ... fragment=1 von reger eingecheckt. Das läd aber interessanterweise nur Links, die sich nicht in der gleichen Domäne wie das gesuchte Ergebnis befinden, ausserdem nur was angezeigt wird und nicht was von remote geliefert wird. Man könnte das modifizieren. Darüber hinaus könnte man die Default-Aktivierung in die Netzkonfiguration verschieben, so dass es bei einem Switch zum Intranet-Modus deaktiv ist.

Für Lotus' pre-crawling könnte man analog vorgehen, wobei die Frage offen ist welche root-Dokumente tatsächlich zu laden sind, es gibt ja so viele Sprachen. Man könnte zu den com/edu/org/net-TLDs noch die Länderdomäne entsprechend Browser Spracheinstellung nehmen.

Insgesamt gibts aber zu beachten, dass ein Post-Crawling über Suchergebnisse heftig sein kann: bei der remote Suche gibts bis zu 300 Ergebnisse, und jedes kann 50 weitere Links haben, also 15000 Links nach einer Suche. Das zwingt uns, Regeln zu finden wie man das einschränken kann. Wie könnten solche Regeln aussehen?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Anzeige der Domain auf Platz 1

Beitragvon PCA42 » Mo Jun 03, 2013 4:58 pm

Ich glaube wir haben aneinander vorbeigeredet in unserem Gespräch. Mir geht es konkret um Folgendes:

Ich werfe als Suchanfrage den Begriff "Apfel" in rein. Es werden jetzt von den Peers nur Ergebnisse zurückgegeben, bei denen "Apfel" entweder in der Domain oder im Dokumententitel vorkommt. Dieser Ergebnisse werden vor der Anzeige für den Benutzer gewichtet und es wird parallel ein Crawl über dieser Ergebnisse angestoßen. Dieser läuft für eine festgelegte Zeit (ca. 30 Sekunden) oder bis die nächste Suche erfolgt. Mir geht es also nur um die Ein-Wort-Suche.

Damit sollte die Qualität der Suche sich entsprechend den Suchanfragen schnell verbessern, weil der lokale Index angereichert wird. Und bei prägnanten Suchbegriffen werden schnell gute Ergebnisse geliefert

BTW: Was zum Schmunzeln: Sucht mal bei g** nach "ubuntu". Ich denke mal, dadurch das viele ohne zu schauen auf das erste Ergebnisse klicken, kommt dieses Ranking zustande.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Anzeige der Domain auf Platz 1

Beitragvon Lotus » Fr Sep 27, 2013 6:09 pm

Orbiter hat geschrieben:Das sind zwei verschiedene Sachen aber von der Implementierung sehr ähnlich, denn ein 'richtiges' pre-crawling kann man sich aufgrund der Suchzeit nicht leisten und würde genau wie das post-crawling über eine Heuristik implementiert werden. Die Heuristiken haben die Eigenschaften, dass die zum Crawler hinzugefügten Seiten einen Link zum Such-Event haben, und geladene Seiten dort sofort mit eingegliedert werden können. So können Heuristik-Ergebnisse noch während der Ergebnisanzeige in die Ergebnisliste hinzugefügt werden.

Würde ich gerne implementieren, scheitere jedoch daran, dass es nicht funktioniert:
http://bugs.yacy.net/view.php?id=261
Den Bug kann ich nicht selbst beheben, da ich keinen Überblick mehr darüber habe, wie das mit Solr im Detail funktioniert. Es scheint sehr viele verschiedene Caches auf dem Weg zur Darstellung zu geben, die erst einmal geleert werden müssen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste