Possible to ignore robot.txt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Possible to ignore robot.txt

Beitragvon DNcrawler » Mi Dez 21, 2016 2:11 am

Hello,

I'm crawling the websites of a company my employer recently acquired. I setup a list of around 12,000 sites inside yacy to crawl the sites. Yacy is crawling the sites without issue. However, a number of them have robots.txt set to noindex and nofollow. How can I change all sites to ignore robots.txt? The advanced crawler has options for this, but it doesn't seem to work for sites already in the index/crawler.

Thank you.
DNcrawler
 
Beiträge: 19
Registriert: Mi Dez 21, 2016 1:48 am

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 3 Gäste

cron