Was ist ein "Limit Crawler"?

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Was ist ein "Limit Crawler"?

Beitragvon cnouvelle » Di Mär 27, 2012 7:54 pm

Hello, can you tell me what a limit crawler is? I can't figure it out. I noticed it especially when I used the proxy scraper.
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Was ist ein "Limit Crawler"?

Beitragvon Lotus » Di Mär 27, 2012 8:34 pm

This is the queue of the last "leaf"-pages of a crawl. I.e. if you specified crawl depth 2, all pages in depth 2 will be sotred to the limit crawler queue. This queue is available via remote crawl if it was enabled at crawl start.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Was ist ein "Limit Crawler"?

Beitragvon Quix0r » Mo Apr 09, 2012 3:16 pm

In other words:
"Limit-Crawler" is the queue that other peers will crawl for you, add to their index as a redundant copy and send the crawl reciept (aka. "result") back to you. You can see this in p2p-mode only as "RECEIVED CRAWL RECEIPT" (no shouting) lines in your DATA/LOGS/yacyXX.log files. In robinson-mode there will be no such lines. If your local queue ("core crawler") is empty, some URLs will be moved from limit to core crawler to crawl them on your own.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Was ist ein "Limit Crawler"?

Beitragvon iqualfragile » Fr Apr 20, 2012 7:03 pm

Lotus hat geschrieben:This queue is available via remote crawl if it was enabled at crawl start.

how can i enable this queue to be remote-crawled if it is filled mainly by the proxy?
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm

Re: Was ist ein "Limit Crawler"?

Beitragvon Quix0r » Fr Apr 20, 2012 8:14 pm

Go to /ProxyIndexingMonitor_p.html, set at least pre-fetch level to 1 and enable remote indexing. That should add some URLs to the index. If you want to be nice to others, head to /RemoteCrawl_p.html and enable it + set a reasonable PPM (pages per minute) value. I have max speed (600) here and it never reaches that speed. This is very nice to other peers because you help them crawling.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Was ist ein "Limit Crawler"?

Beitragvon iqualfragile » Fr Apr 20, 2012 11:07 pm

I found it on my own.. seems like i "hatte tomaten auf den augen", i even had checked the box early

i can't enable that one, because my peer is allready under full load.

it is an transparent proxy infront of a greater network.

it takes more than an day to crawl the stuff browsed on that day...
iqualfragile
 
Beiträge: 60
Registriert: Do Jan 19, 2012 8:54 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast