Klartext Query Handling ?

Forum for developers

Klartext Query Handling ?

Beitragvon reger » Mi Jan 02, 2013 11:01 am

Mit der Solr Integration und dem Direkt-Forward von Solr-Queries logged YaCy ja brav den entsprechenden Traffic von remote und lokalen Suchanfragen.
Ich perönlich finde es eigentlich ganz lusting bis hilfreich mitzubekommen was mein Peer im Index haben sollte (um die Anfrage bedienen zu können), was so Thema ist usw.

Gibt es hierzu einen Plan oder eine Tendenz/Meinung wohin sich YaCy hier entwickeln soll ?

D.h. soll es in Richtung....
1) Klartext Übermittlung der Queries gehen (mit allen Vor- und Nachteilen, z.B. Queryanalyse für Admin)?
oder
2) längerfristig Solr Interface schliessen und auf 100% Wordhashes zurückfallen?

P.S.
Zur Einstummung und für jetzt Neugierige habe ich mal die queries.log meines Peers (ca. 2 Monats-Log) durch Carrot2 gejagt, das sieht dann so aus
all-image-png.png
all-image-png.png (45.03 KiB) 1915-mal betrachtet


schaut man nur auf "Other Topics" (obige Topthemen und verwandtes sowie °YaCy" und lokale Abfragen :oops: ausgeblendet) liest sich das so....
noporn.png
noporn.png (41.92 KiB) 1915-mal betrachtet
reger
 
Beiträge: 45
Registriert: Mi Jan 02, 2013 9:23 am

Re: Klartext Query Handling ?

Beitragvon Orbiter » Mi Jan 02, 2013 4:44 pm

Ich sehe keinen Sinn in eine Polarisierung von 1) und 2), denn 2) hatten wir ja vor der Einführung von Solr schon, aber mit nicht so großem Erfolg wie nun mit Solr. Nur noch Solr zu machen macht auch keinen Sinn, dazu gibt es kein DHT-Konzept. Es gibt meiner Meinung nach nur folgende Alternative:
3) die Hashes in Solr ebenfall einfüttern und dann remote in Solr nach den Hashes suchen. Das macht aber auch einen Haufen Probleme.

Die hashes sond ja auch keine Privatsphärensicherheit weil man die ja auch über ein Wörterbuch knacken kann. Falls jemand eine Idee hat dann nur her damit.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Klartext Query Handling ?

Beitragvon reger » Do Jan 03, 2013 2:03 am

Eine wirklich gute Lösung habe ich auch noch nicht, aber vielleicht eine zu berücksichtigende Anmerkung für Weiterentwicklung der Solr-Direktkommunikation

- EmbeddedSolr Schema sollte standardisiert werden
  • da Solr Ergebnisse von remote Node direkt im lokalen Solr Index gespeichert wird ist ein einheitliches Schema ratsam (abschalten Fieldname customizing für embedded Solr)
    • Grund, da kein default Searchfield verwendet wird müssen Feldnamen in remote query stimmen
    • auf der anderen Seite, hat lokaler Index alle möglichen Felder des remote Systems nach dem speichern, was lokale Feldauswahl obslete macht, ein Abgleich mit lokalem Setting ist wahrscheinlich irgendwann eh notwendig/sinnvoll
      Randüberlegung: in der Übergangszeit sind remote SolrDoc's (erfahrungsgemäss) nicht durchgängig Fulltext (Seiteneffekte ?)
  • alternativ nur Standard für das Exchange-Dok was übers Netz geht

Obiges gesagt, wenn m.E. irgendwann ein Abstraktionslayer für P2P mit Solr notwendig wird (um Flexibilität mit lokalem Solr zu erhalten) könnte/sollte man die beiden Kommunikationswege nicht verheiraten (als simpel GedankenModell quasi ein search.RSS Peer Selektor).

Für den Augenblick halte ich für mich mal fest.... Klartext ist OK (ich würde tatsächlich gern ein paar simple/übliche Querystatistiken in die Weiterentwicklung einfliessen lassen).
reger
 
Beiträge: 45
Registriert: Mi Jan 02, 2013 9:23 am

Re: Klartext Query Handling ?

Beitragvon Orbiter » Mo Jan 14, 2013 2:39 am

Die Standardisierung des EmbeddedSolr Schema ist sicherlich richtig und notwendig innerhalb eines bestimmten Netzes, aber nicht für alle denkbaren Netze. Es könnte ja jemand auf die Idee kommen das Schema erst anzupassen und dann für das angepasste Schema ein eigenes Netz drüber zu bauen. Folglich müsste die Schemadefinition ein Teil der Netzdefinition sein.
Die Alternative, nur für p2p-Kommunikation ein unangepassstes Schema zu nutzen müssen wir nochmal überdenken bzw. näher in Betracht ziehen, vielleicht ist das der Ausweg.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Klartext Query Handling ?

Beitragvon Lotus » Fr Jan 18, 2013 5:19 pm

Orbiter hat geschrieben:Die Alternative, nur für p2p-Kommunikation ein unangepassstes Schema zu nutzen müssen wir nochmal überdenken bzw. näher in Betracht ziehen, vielleicht ist das der Ausweg.

Ich bin zwar nicht ganz auf dem aktuellen Stand, aber nach dem was ich verstanden habe, könnte doch ein Mapping eine Lösung sein. D.h. es gibt bestimmte Felder mit standardisiertem Namen. Von diesem Standard gibt es nun ein Mapping auf ein beliebiges Feld. Und einzige Voraussetzung ist, dass immer ein Mapping mit dem zugehörigen Feld existieren muss. D.h. es gibt Felder, die müssen existieren, dürfen aber auch anders heißen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste