APICrawler question/clarification

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

APICrawler question/clarification

Beitragvon DNcrawler » Mi Mär 15, 2017 3:05 am

Hi,

I'm trying to submit urls via advanced crawler API call per http://www.yacy-websearch.net/wiki/index.php/Dev:APICrawler documentation. I call like this:

Code: Alles auswählen
curl "http://localhost:8090/Crawler_p.html?deleteold=off&range=wide&snapshotsMustnotmatch=&indexMedia=on&snapshotsReplaceOld=off&recrawl=nodoubles&storeHTCache=on&timezoneOffset=300&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&snapshotsMaxDepth=-1&crawlingURL=http://exampleAPITEST.com/"


That's a fake URL, but you get the point, it's unique and not in the database yet.

Yacy spins for a few seconds, and then returns an html dump from curl which looks like the Crawler_p.html page.

I tried
Code: Alles auswählen
curl -X POST
and the same url with the same result. I've also tried proper curl format of
Code: Alles auswählen
curl -data "/Crawler_p.html?deleteold=off&range=wide&snapshotsMustnotmatch=&indexMedia=on&snapshotsReplaceOld=off&recrawl=nodoubles&storeHTCache=on&timezoneOffset=300&crawlingQ=on&cachePolicy=iffresh&indexText=on&crawlingMode=url&snapshotsMaxDepth=-1&crawlingURL=http://exampleAPITEST.com/"  http://localhost:8090


I don't see the url being crawled in the Crawler Monitor nor setup in the Process Scheduler. Am I calling it wrong?

Thanks in advance for hints.
DNcrawler
 
Beiträge: 17
Registriert: Mi Dez 21, 2016 1:48 am

Re: APICrawler question/clarification

Beitragvon luc » Mo Mär 27, 2017 8:35 am

Hi DNCrawler, maybe you noticed in the meantime, by the way you just forgot the "crawlingstart" parameter. Without it, even if you effectively filled all the other parameters, no crawl will start.

So you just have to add "crawlingstart=" somewhere in your url.

Have a nice day
luc
 
Beiträge: 235
Registriert: Mi Aug 26, 2015 1:04 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron