Doppelte Einträge (https http) verhindern

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Doppelte Einträge (https http) verhindern

Beitragvon dürer » So Sep 23, 2012 10:47 am

Hallo,
ich betreibe YacY im Robinsonmodus (Portal). In den Suchergebnissen tauchen immer wieder doppelte Einträge auf, da manche Seiten auch https anbieten Beispiel:

http://test.org
https://test.org

Die Filterliste habe ich (auch manuell mit regex) versucht dazu zu bringen, alle Einträge zu unterbinden, die mit https beginnen. Es will nicht gelingen. Was muss ich tun, um alle https Einträge zu unterbinden oder noch besser: solche Dubletten zu vermeiden?

Vielen Dank für eine Antwort! :)
dürer
 
Beiträge: 11
Registriert: So Feb 05, 2012 5:49 pm

Re: Doppelte Einträge (https http) verhindern

Beitragvon gaston » So Sep 23, 2012 4:55 pm

Es wird nur Host und Path gefiltert, deswegen geht das nicht.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Doppelte Einträge (https http) verhindern

Beitragvon Orbiter » Di Okt 16, 2012 7:54 pm

also es ist so dass die http- und https- URLs schon allein deswegen unterschiedlich sind, weil deren hash unterschiedlich ist.
Wenn du die Links aber durch den Crawler reinbekommen hast, müsste es möglich sein durch Angabe entsprechender must-match Filter auf http:// bzw. https:// auf das Protokoll einzuschränken.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron