Seite 1 von 1

YaCy crawlt eine (meine) Seite nicht

BeitragVerfasst: So Sep 18, 2016 6:29 pm
von PepeCyB
Ich möchte YaCy für themenbezogene Suche verwenden. Es funktioniert alles auch hervorragend, doch eine - leider meine wichtigste - Seite lässt sich nicht crawlen. Es handelt sich um eine WordPress-installation unter https://dampfdruck-presse.de. Ich habe weitere vergleichbare WP installiert (alles bei Strato), die sich völlig problemlos crawlen lassen, aber die Dampfdruck-Presse will nicht. Ich habe die SEO-Einstellungen verglichen… es gibt zu meinen anderen WP-Installationen keine Unterschiede.

ein Crawlin-Versuch bricht IMMER mit der Meldung

Crawling von "https://dampfdruck-presse.de" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can't execute: Received fatal alert: unrecognized_name duration=86 for url https://dampfdruck-presse.de//


ab.

Eine Crawl-Überprüfung (Seite: Zielanalye) ergibt folgendes:

URL Zugriff Robots Crawl-Verzögerung Seitenverzeichnis(Sitemap)
https://dampfdruck-presse.de/ error response: java.io.IOException: Client can't execute: Received fatal alert: unrecognized_name duration=86 for url https://dampfdruck-presse.de/ no robots 500 ms


Nun weiß ich absolut nicht weiter… woran könnte das liegen? Es ist von den Seiten, die ich crawlen wollte, die einzige, bei der es nicht geht.

Re: YaCy crawlt eine (meine) Seite nicht

BeitragVerfasst: Mo Sep 19, 2016 8:00 am
von Orbiter
Notiz: hab hier eine mögliche Ursache und Abhilfe gefunden:
http://stackoverflow.com/questions/7615 ... java-1-7-0

@PepeCyB kannst du mal versuchen die http-Variante (nicht https) zu crawlen? Das würde bestätigen dass es ein Java 7 Problem ist. Wir bauen dann einen patch.

Re: YaCy crawlt eine (meine) Seite nicht

BeitragVerfasst: So Okt 16, 2016 4:58 pm
von PepeCyB
Sorry… war jetzt ein paar Wochen out-of-order ;)

Werde es mal mit der http-Version testen und das Ergebnis bekannt geben.

Re: YaCy crawlt eine (meine) Seite nicht

BeitragVerfasst: So Okt 16, 2016 5:43 pm
von PepeCyB
Auch bei der http-Variante bekomme ich die Fehlermeldung

Code: Alles auswählen
Crawling of "http://dampfdruck-presse.de" failed. Reason: scraper cannot load URL: java.io.IOException: Client can't execute: Received fatal alert: unrecognized_name duration=87 for url http://dampfdruck-presse.de//

Re: YaCy crawlt eine (meine) Seite nicht

BeitragVerfasst: Mo Dez 25, 2017 7:57 pm
von Timo
Hallo,

sorry, dass ich mich hier einfach ran hänge, aber ich habe ein ähnliches Problem. Ich möchte nur für mich eine kleine Suchmaschine lokal betreiben. Allgemein läuft alles bestens (Win 10 Pro + letzte Yacy-Version). Ich habe habe nur hin und wieder mit SSL-Websites Probleme, also hin und wieder mit Websites die mit https beginnen. Dann erhalte ich manchmal diesen Fehler:
Crawling von "https://www.website.de" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: Client can't execute: Received fatal alert: internal_error duration=31 for url https://www.website.de//

Ich kann leider mit diesem Fehler nichts anfangen. Ich verstehe auch nicht warum viele https-Seiten gecrawlt werden können und einige wenige nicht.
Ich finde diverse Hinweise das ich nicht der Einzige bin der dieses Problem hat, aber eine Lösung habe ich nicht gefunden.

Habt ihr einen Tipp?
Vielen Dank!

Re: YaCy crawlt eine (meine) Seite nicht

BeitragVerfasst: Di Jan 09, 2018 6:42 pm
von Timo
Falls jemand ein ähnliches Problem hat, der kann diese Yacy-Version verwenden. Diese funktioniert prima:
https://github.com/luccioman/yacy_searc ... r/releases