Seiten auf Domino Server mit session based auth crawlen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Seiten auf Domino Server mit session based auth crawlen

Beitragvon Copro » Di Jul 19, 2016 6:02 pm

Ist es möglich Webseiten nach einer session based Authentifikation zu crawlen ?

Hintergrund ist ein IBM Domino Server im Intranet der sessionbasierte Authentifikation aktiviert hat. D.h. wenn man nicht authentifiziert ist öffnet sich immer nur eine Login Seite in der man sich zuerst authentifizieren muss.

Es ist zwar möglich das in einem Schritt mitzumachen - aber der Crawler bleibt nicht authentifiziert und sieht nur die Login Seite.
Code: Alles auswählen
http://server.foconis.local/pfad/anwendung.nsf?login&username=crawluser&password=crawlpass&redirectto=http://server.foconis.local/pfad/anwendung.nsf/Ansichtsname


In dem Beispiel würde man nach dem Einloggen des Benutzers crawluser mit Passwort crawlpass gleich auf die zu crawlende Startseite geleitet: http://server.foconis.local/pfad/anwend ... sichtsname
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Seiten auf Domino Server mit session based auth crawlen

Beitragvon sixcooler » Di Jul 19, 2016 9:47 pm

Hi Copro,

nein das Feature gibt es nicht, um Inhalte mit Authentifikation nicht unnütz in den Resultaten zu haben, wo man sie als Snippet ohne Authentifikation sehen wurde oder wo man eh ohne die die Anmeldung nicht auf die Seite kommt.
Das Problem stellt sich sowohl im verteilten Index, als auch wenn man die Suche anderen Usern frei gibt.

Cu
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Seiten auf Domino Server mit session based auth crawlen

Beitragvon Copro » Mi Jul 20, 2016 8:42 am

In dem Fall wären die Benutzer im Intranet ja authentifiziert. Das bedeutet man müsste nur eine Möglichkeit finden den Crawler vorher zu authentifizieren ?
Die aktuell verwendete Netzwerkeinheit ist die yacy.network.allip.unit
Gibt es die Möglichkeit über diese Konfiguration nicht nur den User-Agent zu modifizieren sondern eventuell auch eine Authentifizierung (z.B. Session Keks) oder einen X-Auth Header zu hinterlegen ?

Ich hatte zuerst versucht die Netzwerkeinheit yacy.network.intranet.unit zu verwenden - da wurden aber die Server im Intranet mit 10/ Adressen und *.local Hosts abgewiesen.
Aber auch da sind eigentlicht 10/ Adressen erlaubt und nicht in der Blacklist
Code: Alles auswählen
# white/blacklists
network.unit.access.whitelist = 10\..*,127\..*,172\.(1[6-9]|2[0-9]|3[0-1])\..*,169\.254\..*,192\.168\..*,localhost
network.unit.access.blacklist =


Als Alternative hätte ich mir die Importmöglichkeit über surrogates angesehen aber soweit ich verstanden habe müsste da dann der eigentliche Inhalt ebenfalls zugänglich gemacht werden.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Seiten auf Domino Server mit session based auth crawlen

Beitragvon sixcooler » Mi Jul 20, 2016 6:08 pm

Hallo Copro,

Der Authentifizierungsteil ist zwar nicht im Crawler eingebaut - aber das ist nicht das Problem:

Das Problem ist das man restricted Content ohne Zuordnung dessen wer das sehen darf in den Suchergebnissen hat - das hat man nur mit mit der gleichen Logik der Seitenquelle. Deswegen überlässt man sowas lieber den Anwendungen aus denen die Seiten stammen. Diese können die gleiche Logik auf die Suchergebnisse anwenden.

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 4 Gäste