Change Yacy User agent

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Change Yacy User agent

Beitragvon enky » Di Sep 03, 2013 1:26 am

Hello,

is it possible to change the yacy user agent?
By default the user agent look like
Code: Alles auswählen
yacybot (amd64 Linux 2.6.16-2-amd64-k8-smp; java 1.5.0_10; Europe/en) http://yacy.net/yacy/bot.html


It's should be a great feature if we can change this.
Or just customize the URL part:

yacybot (amd64 Linux 2.6.16-2-amd64-k8-smp; java 1.5.0_10; Europe/en) http://mywebsite.net/bot.html


Regards
enky
 
Beiträge: 3
Registriert: Di Sep 03, 2013 1:13 am

Re: Change Yacy User agent

Beitragvon freak » Mo Okt 14, 2013 2:25 pm

?
Zuletzt geändert von freak am Di Mär 31, 2015 8:39 pm, insgesamt 1-mal geändert.
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Change Yacy User agent

Beitragvon Orbiter » Di Okt 22, 2013 2:44 pm

changing the user agent to something generic would not be a good idea since this will be recognized as 'bad habit'. But the suggestion to have an additional text at the end is ok. Lets see, I will put this on my list.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Change Yacy User agent

Beitragvon davide » Do Mai 21, 2015 11:43 am

I discovered amazon.com blocks any request if it detects "yacybot" in the UA string at crawldepth > 0.
Can you confirm it does the same from your location / IP?

Edit:
Code: Alles auswählen
# works:
curl -A 'yacybot' 'http://www.amazon.com/'

# doesn't work: (YaCy banned)
curl -A 'yacybot' 'http://www.amazon.com/gp/product/B00M55C0NS/ref=s9_qpp_gw_p147_i3?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=desktop-2&pf_rd_r=1N89E7QBP1K11EXJSNPX&pf_rd_t=36701&pf_rd_p=2094630522&pf_rd_i=desktop'


Orbiter hat geschrieben:changing the user agent to something generic would not be a good idea since this will be recognized as 'bad habit'. But the suggestion to have an additional text at the end is ok. Lets see, I will put this on my list.

I think it's a worse habit for webservers to block user agents than for YaCy to be free to crawl the web information, IMHO.
davide
 
Beiträge: 84
Registriert: Fr Feb 15, 2013 8:03 am


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast