Reason: scraper cannot load URL: java.io.IOException: REJECT

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Reason: scraper cannot load URL: java.io.IOException: REJECT

Beitragvon Zoro » Fr Jul 17, 2015 4:04 pm

Hi Guys

When I try to index a site I get this error:

Crawling of "http://www.somesite.com/notice/product/available" failed. Reason: scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY 'HTTP/1.1 403 Forbidden' for URL 'http://www.somesite.com/notice/product/available'$/

can this be fixed or does it mean this particular site cannot be indexed?
Zoro
 
Beiträge: 1
Registriert: Fr Jul 17, 2015 3:48 pm

Re: Reason: scraper cannot load URL: java.io.IOException: RE

Beitragvon davide » Fr Jul 17, 2015 11:34 pm

I guess the host server reacts to your user agent string serving you an empty response page. YaCy UA string cannot be changed by user interface or config files :roll:
The other possibility is that the target resource doesn't exist for real.

By the way, I'm also crawling a few e-commerce websites with a custom UA string; which one are you after?
davide
 
Beiträge: 78
Registriert: Fr Feb 15, 2013 8:03 am


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste