http- und https-Adresse erzeugen doppelte Treffer

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

http- und https-Adresse erzeugen doppelte Treffer

Beitragvon mbehrens » Mo Mai 19, 2014 1:59 pm

Unsere Sites sind oft sowohl über http-, als auch über https-Verbindungen erreichbar und auf verschiedenen Seiten ggf. auch über beide Protokolle verlinkt.
Problem hierbei ist, dass die entsprechenden URLs dadurch doppelt in allen Suchergebnissen auftauchen: einmal als http://..., und dann auch als https://...

Leider können wir zur Lösung des Problems nicht einfach einen Blacklist-Filter auf _alle_ https://... Urls einbauen, weil einige nur über https erreichbar sind.
Gibt es eine Möglichkeit, https://-Urls aus den Suchergebnissen herauszufiltern, wenn die gleiche URL als http://-Url im Index vorhanden ist?

Vielen Dank!

Mit freundlichen Grüßen, M. Behrens
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: http- und https-Adresse erzeugen doppelte Treffer

Beitragvon gTSj » Mi Jun 04, 2014 11:41 pm

Ich halte zwei Lösungen für diesen Fall (http und https sind verfügbar und Websiten haben den gleichen Inhalt) für sinnvoll:
1. nur https-URL im Index speichern und als Suchergebnis anzeigen
2. eine der beiden URLs (konsistent) und dazu ein flag („kann http und https“) speichern. Per Einstellungen kann man dann

Ich tendiere zur ersten Lösung, weil es keinen Grund gibt, unverschlüsselt Daten zu übertragen, die verschlüsselt übertragen werden können.

Allerdings besteht bei der Anzeige von https-Verbindungen immer das Risiko, dass der TrustStore für SSL-Zertifikate zwischen Yacy-Instanzen (TrustStore von Java oder dem Betriebssystem) und Browsern (TrustStore des Browsers oder des Betriebssystems) zu viel variieren, so dass manche Seiten unerreichbar werden.
Die saubere Lösung wäre wohl, die verschiedenen TrustStores zu vergleichen und daraus eine Liste „üblicher“ Zertifizierungsstellen zu generieren. (Aufwand!)
gTSj
 
Beiträge: 21
Registriert: Mo Jan 27, 2014 10:49 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron