Bot-Authentifizierung

Ideen und Vorschläge sind willkommen.

Bot-Authentifizierung

Beitragvon der_flo » Di Nov 18, 2008 1:19 pm

Gibt es eine Möglichkeit, dass sich der Crawler an den zu erfassenden Seiten anmeldet?
Wir würden eventuell eine Intranet-Suche mit YaCy realisieren, allerdings sind die einzelnen Applikationen geschützt.

Gibt es zu diesem Thema Ressourcen? Ich habe mich beim Projekt und in den Foren jetzt einige Zeit umgesehen und noch keine Hinweise gefunden.

Danke!
der Flo
der_flo
 
Beiträge: 6
Registriert: Di Nov 18, 2008 1:15 pm

Re: Bot-Authentifizierung

Beitragvon Orbiter » Di Nov 18, 2008 1:42 pm

haben wir noch nicht.
Ein http-authentify beim crawlen im header auszuliefern sollte aber recht einfach zu machen sein. Notwendige Änderungen:
- Crawl-Profile erweitern (user:pw als String übergeben)
- Eingabe des user:pw beim Crawl Start (servlet erweitern), aber das nur bei nicht-freeworld Crawls erlauben (sonst machts keinen Sinn)
- http-client: Übergabe des authentify-String mit vorsehen
das sollte schon reichen.

ahem: wagt sich da einer ran? hab gerade wirklich wenig Zeit.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Bot-Authentifizierung

Beitragvon der_flo » Mi Nov 19, 2008 10:26 am

Schade, dass das Feature noch nicht drin ist.

Bei dieser Fragestellung kommt verkomplizierend hinzu, dass bei den Applikationen nicht immer HTTP-Authentifizierung möglich ist. In der Regel muss das Login irgendwo hin gePOSTet werden und dann das empfangene Cookie bei jedem weiteren Seitenaufruf mitgesendet werden.

Ciao,
der Flo
der_flo
 
Beiträge: 6
Registriert: Di Nov 18, 2008 1:15 pm

Re: Bot-Authentifizierung

Beitragvon Orbiter » Mi Nov 19, 2008 10:45 am

das posten wäre ja nicht das Problem, wenn der Server die Login-Daten als PUT-Daten in der URL durchgehen läßt, dann kann man die Authentifizierung auch in der URL vom Crawl Start unter bringen. Schwieriger ist es dann schon beim Cookie, das können wir zwar lesen und schreiben, aber müsste analog zur http-authentify im Crawl Profile gespreichert werden. Das Ausliefern von Cookies beim Crawlen ist aber eine ziemlich unsaubere Sache, weil das ja eine Individualisierung der Webseite bedeutet.

hmm, wie würde dein Problem nun konkret aussehen? brauchst du http-authentify oder cookies oder beides?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Bot-Authentifizierung

Beitragvon der_flo » Mi Nov 19, 2008 5:04 pm

Definitiv beides.

Einige Intranet-Anwendungen authentifizieren per HTTP-Auth, andere per Login-Seite + Cookie.
Deine Aussage, dass mit der Cookie-Auslieferung prinzipiell wieder personalisierte Seiten gecrawlt werden, verstehe ich und da muss ich zustimmen. Ist halt die Frage, ob das ggf. ein gewolltes Feature werden soll (ggf. steuerbar über div. Einstellmöglichkeiten).

Ciao,
der Flo
der_flo
 
Beiträge: 6
Registriert: Di Nov 18, 2008 1:15 pm

Re: Bot-Authentifizierung

Beitragvon Orbiter » Mi Nov 19, 2008 5:12 pm

hm, das ganze scheint immer komplizierter zu werden. Gibts keine Alternative in der Herangehensweise?

Man könnte für das Crawlen einen eigenen Service anbieten, d.h. nur für YaCy alles ohne Authentifizierung ausgeben. Dann müsste, damit man die gecrawlten Seiten in YaCy anzeigen kann, dann die Ergebnisseite so patchen, dass von den freigegebenen Seiten auf die Oroginal-Seiten umgeleitet wird. Beispiel:

Deine Dokumente liegen auf
http://docs.intranet/
und sind dort geschützt. Nur für YaCy wird alles nochmal ohne Schutz angeboten unter
http://docs.intranet:8888/
und der Port wird für alle anderen User in einer Firewall gesperrt.

Mit einer Option in YaCy wird dann alles von Port 8888 auf 80 gepatcht, so daß jeder mit YaCy ohne authentifizierung suchen kann, aber die Dokumente dann wie gewohnt mit authentifizierung abrufen kann. Eine zusätzliche Authentifizierung auf YaCy ist auch möglich.
Ginge das?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Bot-Authentifizierung

Beitragvon der_flo » Do Nov 20, 2008 9:33 am

Hallo Orbiter,

leider ist das keine Lösung, weil unser Intranet zwar Intranet heißt, aber trotzdem über mehrere Rechner im Internet verteilt ist. Die Sicherheit unserer Unternehmensdaten allein von ein paar Firewall-Regeln abhängig zu machen, ist mir ein bisschen zu heikel. Einige Anwendungen liegen auf schlichten Webhosting-Paketen, da schaut es schlecht aus, den Webserver zusätzlich auf einen weiteren Port zu binden. Zusätzlich kann ich nicht sagen, wie viel Aufwand es ist, sämtliche Anwendungen so umzustellen, dass sie auf einem speziellen Port ohne Authentifizierung laufen.

Eine andere Variante kommt mir noch in den Sinn:
YaCy kann ja offensichtlich im Proxy-Betrieb auch die angesurften Seiten crawlen. Vielleicht gäbe es einen Crawler auf Selenium-Basis, den man aufs Intranet ansetzen kann? Dann könnte man sich ber Selenium-Skript an allen Anwendungen anmelden und den Rest vom Crawler erledigen lassen.
Auf die Schnelle habe ich aber leider auch zu diesem Thema nichts gefunden.

Vorschläge oder Meinungen?


Ciao,
der Flo
der_flo
 
Beiträge: 6
Registriert: Di Nov 18, 2008 1:15 pm

Re: Bot-Authentifizierung

Beitragvon DanielR » Do Nov 20, 2008 12:09 pm

Beides kombinieren? Also du stellst einen Proxy, welcher im Intranet ohne Authentifizierung erlaubt wird (oder sich sogar authentifizieren kann). YaCy nutzt dann diesen Proxy zum crawlen?

Wenn es allerdings um POST-Logins und Cookies geht, wird das wohl nichts. Dann ist sicherlich auch der Proxy nicht überall erlaubbar?!?
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Bot-Authentifizierung

Beitragvon der_flo » Do Nov 20, 2008 5:02 pm

Selenium ist ein Automations- und Testtool für Firefox. Wenn man Selenium überreden könne, wie ein Crawler alle Seiten zu besuchen, auf die man Zugriff hat, dann könnte man das Problem in den Griff bekommen.
- Vor der Crawl-Session werden spezielle Crawl-User für die Intranet-Anwendungen angelegt
- Man meldet sich mit dem Firefox-Profil an allen Intranet-Anwendungen an (mit dem gerade angelegten User)
- Jetzt können alle Intranet-Seiten besucht werden
- Der YaCy-Proxy wird bei Firefox eingetragen
- "Fehlender Teil": Selenium crawlt alle Intranet-Seiten ab, weil der Proxy aktiviert ist, bekommt auch YaCy die Daten in die Finger.

Ich hoffe, jetzt wirds verständlicher. Bei dieser Lösung brauche ich natürlich kein "Spiegel-Intranet" ohne Authentifizierung.

Was für diese Lösung eben fehlt, ist eine gut konfigurierbare Crawler-Software auf Browser-Basis.


Ciao,
der Flo
der_flo
 
Beiträge: 6
Registriert: Di Nov 18, 2008 1:15 pm

Re: Bot-Authentifizierung

Beitragvon der_flo » Do Nov 20, 2008 5:03 pm

Evtl wäre das http://bclary.com/projects/spider/ etwas. Muss ich morgen mal prüfen.

Ciao derweil,
der Flo
der_flo
 
Beiträge: 6
Registriert: Di Nov 18, 2008 1:15 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 1 Gast