Yacy crawl speed

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Yacy crawl speed

Beitragvon sakishrist » Fr Jun 11, 2010 10:45 pm

Hallo,

Ich habe ein Problem mit der Geschwindigkeit des YaCy. an der Zeit, die ich TIRN es auf Seiten krabbeln beginnt es mit einer Geschwindigkeit von 100 PPM, aber wenn ich es verlassen, für etwa eine halbe Stunde sinkt sie bis zu 20 PPM. Ich habe bemerkt, dass es in der Regel ca. 1-2 nutzt Threads zur selben Zeit, und es kaum bis 5 Fäden. Dies sowohl auf Linux (Ubuntu neuesten passiert) und Windows (7). Gibt es eine Möglichkeit dieses Problem zu lösen?

Vielen Dank im Voraus

Message in english:
Hello there,

I have a problem with the speed of yacy. at the time I tirn it on it starts crawling pages at a speed of 100 PPM but if I leave it for about half an hour it drops down to 20 PPM. I have noticed that it usualy uses about 1-2 threads at the same time and it hardly reaches 5 threads. This happened on both linux (latest ubuntu) and windows (7). Is there any way to solve this problem?

Thanks in advance
sakishrist
 
Beiträge: 3
Registriert: Fr Jun 11, 2010 10:37 pm

Re: Yacy crawl speed

Beitragvon Copro » So Jun 13, 2010 12:54 am

Im Wiki findest Du einige Möglichkeiten die Crawl Performance von YaCy zu steigern:
You can find lots of possibilites on the Wiki pages to enhance the performance of YaCy during a crawl

Deutsch / German: http://www.yacy-websuche.de/wiki/index. ... erformance
Englisch / English: http://www.yacy-websuche.de/wiki/index. ... erformance

YaCy wird nicht mit optimalen Performance Einstellungen ausgeliefert wird, weil normalerweise YaCy auf den meisten Rechnern nur im Hintergrund ausgeführt wird.
The explanation why YaCy is not shipping with the maximum performance settings is because a normal user runs YaCy just in the background.

Warum die Crawl Performance in Deinem Fall von 100 sehr schnell auf 20 abfällt mag auch andere Grüde haben - aber dazu solltest Du mehr Informationen schreiben. (z.B. Dein System, RAM, Netzwerkanbindung, Crawl Jobs, etc..)
Why your crawl perfomance is dropping so fast from 100 to 20 might have other reasons - but please provide more details about that. (e.g. your system, RAM, network connection, what crawl jobs, etc...)
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Yacy crawl speed

Beitragvon sakishrist » So Jun 13, 2010 2:10 am

My curent system:

Laptop
Windows 7 64x
Java: 1.6.0_20 64x
RAM: 4GB
Network connection: 6Mbps download speed and 1Mbps upload speed over WiFi
Jobs: 35 (most of them have depth set to 8)
Memory reserved for JVM: 1800MB
Use default profile: default (crawl) and use 200% of the defined performance
Priority: normal
Online Caution Settings:
*Proxy: 15000 ms
*Local Search: 3000 ms
*Remote Search: 1000 ms
Crawl threads: 200

--------------------------------------------------------------------------------
Meine derzeitigen Systems:

Laptop
Windows 7 64x
Java: 1.6.0_20 64x
RAM: 4GB
Netzwerk-Anschluss: 6 MBit / s Download-Geschwindigkeit und 1 MBit / s Upload-Geschwindigkeit über WiFi
Jobs: 35 (die meisten von ihnen haben Tiefe auf 8 )
Für JVM reservierter Speicher: 1800MB
Standard Profil benutzen: Standard (Crawl) und nutze 200% der vorgegebenen Geschwindigkeit.
Priorität: normal
Onlinezugriff Verzögerung Einstellungen:
*Proxy: 15000 ms
*Lokale Suche: 3000 ms
*Remote-Suche: 1000 ms
Crawl threads: 200

Thanks in advance
sakishrist
 
Beiträge: 3
Registriert: Fr Jun 11, 2010 10:37 pm

Re: Yacy crawl speed

Beitragvon Quix0r » So Jun 13, 2010 10:23 am

The crawling speed depends not just even on your Internet connection. It also depends on robots.txt (webmaster can setup a delay in there) plus the general delay of 500ms plus an extra delay if YaCy detects that the server response slow, YaCy is not a DDoS tool to crawl with 50 nodes a small server to death with 1000 PPM each node... :mrgreen:

Then the YaCy bot will be quickly added to a blacklist and that is what "we" (the community of YaCy) doesn't want, right? ;) So, to have a good (fast) crawl I can recommend you to crawl sites with lots of sub domains and/or links to external domains, it is somtimes called as a "wider crawl". Please do not crawl heise.de so much, YaCy was blacklisted there already and so I think "we" don't want to risk a second blacklisting there. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Yacy crawl speed

Beitragvon sakishrist » So Jun 13, 2010 11:16 am

OK, I think I get it.

By the way, I have to be doing something wrong when creating a new index from file. What I do is just paste a few links in a text file as plain text and then select this file from the index creator. why doesn't that work?

Thaks again
sakishrist
 
Beiträge: 3
Registriert: Fr Jun 11, 2010 10:37 pm

Re: Yacy crawl speed

Beitragvon Copro » So Jun 13, 2010 2:49 pm

This is from the German Wiki pages again - I might add a translated version later as well (could not find an english version):
Hier müssen Sie ein vollwertiges HTML-Dokumtent mit einem Skript oder einem Editor Ihrer Wahl erstellen. Alle Links, welche in dieser HTML-Datei durch <a href="http://www.domäne.de">Text</a> auftauchen, werden automatisch mit der Crawl-Tiefe "1" indiziert.

http://www.yacy-websuche.de/wiki/index.php/De:CrawlStart_p

A simple plaintext file with just one link per line will not work - but if you generate a simple HTML page with all the links in link tags <a href="http://www.server.com">Linktext</a> everything linked will be crawled automatically with the default crawl depth 1 (so the linked page and all the links on that page will be indexed)

Update: English version of the Wiki page online: http://www.yacy-websuche.de/wiki/index.php/En:CrawlStart_p

Simple HTML 4.01 transitional linklist:
Code: Alles auswählen
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>YaCy Sample Linklist</title>
<meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1">
</head>
<body>
<a href="http://www.motorrad.net">Motorrad.net</a>
<a href="http://www.bmw-motorrad.de">BMW Motorrad</a>
<a href="http://www.motorradfrage.net">Motorrad Frage</a>
</body>
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast

cron