Kann YaCy passwortgeschützte Seiten crawlen?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Kann YaCy passwortgeschützte Seiten crawlen?

Beitragvon mbehrens » Do Mär 10, 2016 9:39 am

Hallo,

ist es möglich, mit YaCy Seiten zu crawlen und zu indizieren, die - z.B. per htaccess - passwortgeschützt sind? Klar: dazu müsste man YaCy irgendwo Benutzername und Passwort zum Crawlen dieser Seiten hinterlegen können.

Ist das angedacht oder hat das schonmal jemand gemacht?

Vielen Dank im Voraus für eine Antwort.

Michael Behrens
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Kann YaCy passwortgeschützte Seiten crawlen?

Beitragvon Orbiter » Do Mär 10, 2016 1:49 pm

Das geht nicht. Solche Seiten würden ja auch als Suchergebnis nicht gut gehen.

Eine Möglichkeit, das doch zu machen würde ich im Kontext mit der kaskelix.de - Strategie sehen, WARC-Files als Quellen importieren zu können. Solche WARC-Files können ja mit wget erzeugt werden, und wget kann man ein Passwort mitliefern. Was in diesem Prozess noch fehlen würde, wäre ein Import-Prozess für WARC-Files.
Äusserst kompliziert wäre das nicht weil WARC sehr einfach ist und wir nur den Crawler umgehen müssen, aber es ist halt noch nicht da.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: YaCy [Bot] und 2 Gäste

cron