Bandbreite Diskrepanz

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Bandbreite Diskrepanz

Beitragvon cnouvelle » Do Mär 15, 2012 7:16 pm

Als ich den Systemstatus überprüfen, zeigt es etwa zehnmal so viel Bandbreite heruntergeladen werden, im Vergleich zum Verkehr auf Crawler_p.html angegeben. Haben Sie eine Erklärung dafür?

---

bandwidth discrepancy

When I check system status, it shows about ten times as much bandwidth being downloaded, compared to the traffic indicated on Crawler_p.html. Do you have an explanation for that?
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Bandbreite Diskrepanz

Beitragvon Lotus » Fr Mär 16, 2012 9:06 am

cnouvelle hat geschrieben:Do you have an explanation for that?

Yes. Is is not accurate.

;)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Bandbreite Diskrepanz

Beitragvon cnouvelle » Fr Mär 16, 2012 6:19 pm

:D Do you mean the system indicator isn't accurate?

I have some other software with its own bandwidth use indicators, and when I turn YaCy off, the system indicator (System Monitor in Ubuntu) matches that, increase for increase. Could it be inaccurate with regard to YaCy usage?

For example, is YaCy fetching a lot of page headers to check dates, and does the bandwidth indicator think it is fetching the whole page?

Any other possible explanations? Perhaps the crawler fetches whole pages (triggering bandwidth) but doesn't need them if they aren't new (meaning a smaller crawl total)?

Thanks kindly for your reply.
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Bandbreite Diskrepanz

Beitragvon cnouvelle » Fr Mär 16, 2012 6:36 pm

I just installed bmon http://linuxers.org/article/bmon-real-t ... oring-tool which gives the same results as system monitor.

I just wonder sometimes if the crawler isn't downloading a lot of mp3s or something.

A long time ago I set a size limit of 1.3M on Settings_p.html?page=crawler
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Bandbreite Diskrepanz

Beitragvon Lotus » Sa Mär 17, 2012 8:53 am

The way YaCy counts is inaccurate. I have forgotten how this is done exactly. In the main part it is a technical limitation of the design of YaCy that would make an accurate count very complex.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Bandbreite Diskrepanz

Beitragvon cnouvelle » Sa Mär 17, 2012 4:42 pm

Okay! I see. Would lowering the Maximum Filesize on Settings_p.html?page=crawler be the only way to reduce the bandwidth used? It would not be an ideal solution but would still permit lots of breadth, just smaller pages, but still plenty of things to match search terms.
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Bandbreite Diskrepanz

Beitragvon cnouvelle » Sa Mär 17, 2012 4:44 pm

Does YaCy re-download pages previously looked at, or does it check headers to make sure a page is new or different? Can it tell that a page is "double in: crawler" without downloading the entire page?
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Bandbreite Diskrepanz

Beitragvon Lotus » Sa Mär 17, 2012 8:01 pm

cnouvelle hat geschrieben:Does YaCy re-download pages previously looked at, or does it check headers to make sure a page is new or different? Can it tell that a page is "double in: crawler" without downloading the entire page?

Yes, it can. According to the "fresh rule" or similar configured for the crawl at start time.
Lowering max. filesize would not really lower the used bandwidth. YaCy just crawls the web. Not to crawl would lower bandwidth.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Bandbreite Diskrepanz

Beitragvon cnouvelle » Sa Mär 17, 2012 10:44 pm

Okay, thanks Lotus. Crawling uses a lot of bandwidth, and that's that. If you put a lot of sites in, of course.
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste