Intranetsuche auf https-Quellen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Fr Jan 14, 2011 5:06 pm

Hallo,

ich möchte Yacy als Intranet-Suchmaschine einsetzen. Das Indizieren einer normalen http-Quelle (http://...) funktioniert wunderbar. Leider sind die meisten Web-Server hier mittels SSL verschlüsselt. Wenn ich eine https-Quelle angebe, dann wird nur die angegebene Seite indiziert. Alle folgenden Seiten werden nicht mehr indiziert (crawler). Wie kann ich Yacy davon überzeugen, auch diese Server zu indizieren?
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Mo Jan 17, 2011 9:09 am

Weiterhin ist mir aufgefallen, dass die nicht funktionierenden Web-Seiten Cookies verwenden (Session-Cookies). Reichen diese Cookies schon, dass Yacy die Seiten nicht weiter indiziert? Im Zusammenhang mit dem Schutz der Privatsphäre habe ich gelesen, dass Yacy Seiten mit Cookies nicht indiziert. Allerdings stand dort nicht, ob das nur für die Nutzung als Proxy gilt oder allgemein. Sollte dieses Feature allgemein gelten, wie kann man es abschalten?

PS: Danke schon mal für etwaige Ideen!
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon Orbiter » Mo Jan 17, 2011 9:33 am

Hallo!

zur ersten Frage zu den https Seiten: da sollte es gar keine Mechanismen in YaCy geben die eine Spezialbehandlung von https im Intranet machen. Da die erste Seite ja auch geladen wird liegt es auch nicht am ssl selbst. Guck mal bitte auf die Seite
/IndexCreateParserErrors_p.html
da steht dann drin warum die Folgeseiten nicht indexiert wurden. Bitte hier posten dann gucken wir weiter.

zur 2. Frage: das nicht-indexieren von Seiten mit Cookies bezieht sicht ausschliesslich auf die proxy-Indexierung. Beim Crawlen werden die ignoriert. Wo hast du denn das gelesen? (zum korrigieren)
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Mo Jan 17, 2011 10:13 am

So,

ich habe kurzerhand ein neues Yacy installiert und eine der Seiten indiziert:

/IndexCreateParserErrors_p.html:

Initiator Ausführender URL Fehlermeldung
d42 d42 http://weather.noaa.gov/ denied_(the host 'weather.noaa.gov' is global, but global addresses are not accepted: 195.37.192.209)
d42 d42 http://www.dlr.de/ denied_(the host 'www.dlr.de' is global, but global addresses are not accepted: 195.37.192.209)

Diese beiden Links sollen in der Tat nicht indiziert werden.

Die Linkliste für die Start-URL zeigt mir jedoch 67 Links an, von denen viele in der gleichen Domain sind.
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon Orbiter » Mo Jan 17, 2011 1:41 pm

und die stehen nicht in der Error-Liste drin?

sind es ggf. URLs mit query-Argumenten bzw. einem '?' in der URL? Die werden nämlich per default nicht erfasst. Dafür gibt es beim Crawl-Start eine extra Option die man nur anklicken muss, die heisst 'allow query-strings (urls with a '?' in the path)'
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Mo Jan 17, 2011 2:43 pm

Es sind in der Tat URLs mit Parametern. Der entsprechende Schalter wurde con mir jedoch gesetzt. Ich habe eine solche URL mal genommen und von da aus mit der Indizierung begonnen. Wieder wird nur diese Seite indiziert. Schaut man sich das Ergebnis an, so hat er 74 Links gefunden. Parser-Fehler sind nicht hinzu gekommen.
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon Orbiter » Mo Jan 17, 2011 3:00 pm

Kannst du mal ins Log gucken? DATA/LOG/yacy00.log
da sollte der Crawl-Start drin zu sehen sein und auch ggf. ein Grund warum der die URLs nicht genommen hat.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Di Jan 18, 2011 10:04 am

Ich habe mal die passenden Teile des Log-Files eingestellt: http://pastie.org/1472823
Bei Bedarf kann ich auch noch mehr schicken. Der größte Teil des Restes entfällt jedoch auf den Start-Up.
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Di Jan 18, 2011 5:35 pm

Ich habe den Server mal mit der Option "Debug" gestartet, aber dabei bekomme ich auch nicht mehr informationen :cry:
Code: Alles auswählen
I 2011/01/18 17:36:10 YACY rulebasedUpdateInfo: not an automatic update selected
I 2011/01/18 17:36:10 RESOURCE OBSERVER resources ok
I 2011/01/18 17:36:33 HTCACHE storing content of url https://intra.polizei.niedersachsen.de/, 61211 bytes
I 2011/01/18 17:36:38 APICALL /Crawler_p.html?createBookmark=off&xsstopw=off&crawlingDomMaxPages=10000&intention=&range=domain&indexMedia=on&recrawl=nodoubles&xdstopw=off&storeHTCache=on&sitemapURL=&repeat_time=7&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=https://intra.polizei.niedersachsen.de&bookmarkTitle=Intranet%20der%20Polizei%20Niedersachsen&mustnotmatch=&crawlingDomFilterDepth=1&crawlingDomFilterCheck=off&crawlingstart=Starte%20neuen%20Crawl&xpstopw=off&repeat_unit=seldays&crawlingDepth=99
I 2011/01/18 17:36:38 BALANCER re-fill of domain stacks; fileIndex.size() = 1, domainStacks.size = 1, collection time = 2 ms
I 2011/01/18 17:36:39 HTCACHE storing content of url https://intra.polizei.niedersachsen.de/, 61211 bytes
I 2011/01/18 17:36:39 Rejected URL http://www.dlr.de/ - denied_(the host 'www.dlr.de' is global, but global addresses are not accepted: 195.37.192.209)
I 2011/01/18 17:36:39 PLASMA CRAWL: ADDED 67 LINKS FROM https://intra.polizei.niedersachsen.de/, STACKING TIME = 38, PARSING TIME = 73
I 2011/01/18 17:36:39 Rejected URL http://weather.noaa.gov/ - denied_(the host 'weather.noaa.gov' is global, but global addresses are not accepted: 195.37.192.209)
I 2011/01/18 17:36:40 PLASMA Excluded 0 words in URL https://intra.polizei.niedersachsen.de/
I 2011/01/18 17:36:40 PLASMA *Indexed 555 words in URL https://intra.polizei.niedersachsen.de/ [P6mwjS-0aHd-]
   Description:  Intranet der Polizei Niedersachsen
   MimeType: text/html | Charset: ISO-8859-1 | Size: 7952 bytes | Anchors: 60
   LinkStorageTime: 6 ms | indexStorageTime: 106 ms
S 2011/01/18 17:38:10 BusyThread thread 'de.anomic.yacy.yacyCore.publishSeedList' delayed, starting now loop.
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon Orbiter » Mi Jan 19, 2011 10:49 am

ja irgendwas läuft hier schief, ich denke du hast da keine Fehlkonfigration in YaCy sondern es liegt wahrscheinlich daran dass die verlinkten Webseiten eine Extension 'php3' haben. Das könnte den Parser verwirren und dazu verleiten die Seiten als nicht erkennbar einzustufen. Hier sollte es wenigstens eine entsprechende Fehlermeldung geben.

Ich werde mal versuchen das nachzustellen und zu fixen. Komme aber frühestens heute Abend dazu. melde mich.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Intranetsuche auf https-Quellen

Beitragvon MTeichmann » Mi Jan 19, 2011 11:30 am

Danke!
MTeichmann
 
Beiträge: 7
Registriert: Fr Jan 14, 2011 4:55 pm

Re: Intranetsuche auf https-Quellen

Beitragvon Orbiter » Do Jan 20, 2011 3:15 pm

kleines Update: ich konnte das Problem nachstellen... liegt aber doch nicht an php3. Muss das durchdebuggen. Kann aber sein dass heute noch keine Lösung kommt. Bleibe dran...
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron