Probleme mit Crawlen von https-Seiten

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Probleme mit Crawlen von https-Seiten

Beitragvon huiwam » Mi Mai 18, 2011 4:31 pm

Hallo alle zusammen,

ich habe folgendes Problem: ich will mit Yacy ein Webportal mit ssl-verschlüsselung indixieren, was leider nicht funktioniert.
Es werden zwar die unterpfade von der eingegebenen Domäne gefunden, aber nach dem Straten vom Crawlprozess passiert einfach gar nichts mehr, bzw nur die erste Seite wird gecrawlt.
In logdatei konnte ich leider auch keine sinnvole Hinweise auf irgenwelchen möchlichen Fehler finden.

Kann mir jemand vielleicht mit meinem Problem weiterhelfen?
Kann die möchliche Ursache an der Weiterleitung liegen? (D.h für bestimmten Seiten muss sich der User anmelden, ansonsten wird er an die Login-Seite weitergeleitet)

vielen Dank im Voraus

mit freundlichen Grüßen
huiwam
 
Beiträge: 16
Registriert: Di Mär 08, 2011 11:24 am

Re: Probleme mit Crawlen von https-Seiten

Beitragvon Lotus » Fr Mai 20, 2011 1:28 pm

huiwam hat geschrieben:Kann die möchliche Ursache an der Weiterleitung liegen? (D.h für bestimmten Seiten muss sich der User anmelden, ansonsten wird er an die Login-Seite weitergeleitet)

Nein, die Seiten die weiterleiten werden dann einfach nicht erfasst, weil nach der Weiterleitung erkannt wird, dass die Login-Seite schon erfasst wurde.

Hat die Seite zufällig Fragezeichen in den Links (Dynamische Seiten), und die Option diese zu erfassen ist abgewählt?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Probleme mit Crawlen von https-Seiten

Beitragvon huiwam » Mo Mai 23, 2011 7:10 am

Hallo,
nein das ist nicht der Fall. Es sind keine dynamischen Seiten.
Es wird nur die erste Seite erfasst und dann ist schluss. Wieso und warum verstehe ich noch nicht.

mit freundlichen Grüßen
huiwam
 
Beiträge: 16
Registriert: Di Mär 08, 2011 11:24 am

Re: Probleme mit Crawlen von https-Seiten

Beitragvon Lotus » Mo Mai 23, 2011 1:40 pm

Ich kann dieses Verhalten bestätigen. Es werden keinen https-Links gefolgt. http-Links auf der gleichen Seite jedoch schon.

Die Anzeige unter /ViewFile.html liefert korrekt die https-Links in der Seite. Der Crawler beachtet sie aber nicht. Im Log sehe ich dazu keinen Hinweis.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Probleme mit Crawlen von https-Seiten

Beitragvon huiwam » Di Mai 24, 2011 8:11 am

Genau. Die https-Seiten werden im URL-Betrachter korrekt angezeigt, aber der Crawler ignoriert sie einfach.
Ein Bug???

mit freundlichen Grüßen
huiwam
 
Beiträge: 16
Registriert: Di Mär 08, 2011 11:24 am

Re: Probleme mit Crawlen von https-Seiten

Beitragvon Orbiter » Di Mai 24, 2011 10:15 am

fix in svn 7734
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Probleme mit Crawlen von https-Seiten

Beitragvon huiwam » Do Mai 26, 2011 3:10 pm

Super!!!!
huiwam
 
Beiträge: 16
Registriert: Di Mär 08, 2011 11:24 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast