Robinson Modus im Netzwerk?

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Robinson Modus im Netzwerk?

Beitragvon danny » So Okt 16, 2011 8:46 pm

Hi,

wir haben zzt. Yacy auf einem Rechner im Robinson Modus laufen (Win 7).

Ist es möglich mehrere Clients im Netzwerk zu verbinden sodass schneller gecrawled wird?

gruß
Danny
danny
 
Beiträge: 2
Registriert: So Okt 16, 2011 8:43 pm

Re: Robinson Modus im Netzwerk?

Beitragvon Orbiter » Mo Okt 17, 2011 3:59 pm

hallo Danny,
danny hat geschrieben:schneller gecrawled wird?

was crawlt ihr denn? Man muss mit YaCy keine Vernetzung machen um schneller zu crawlen. Der Crawler kann sehr schnell sein wenn die Ziele auf unterschiedlichen Servern liegen, wenn sie auf gleichen Servern liegen dann wird absichtlich gebremst damit die Ziel-Server keine Überlastung bekommen und wir damit Beschwerden!
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Robinson Modus im Netzwerk?

Beitragvon danny » Do Okt 20, 2011 11:48 am

Hi,

wir crawlen allgemein alles, idr. Beginnend in einem Webverzeichnis (DMOZ o.ä) allerdings je Domain nur oberflächlich (max. 10 Seiten / Domain) mit einer hohen Crawling-Tiefe.

Dies machen wir um eine Datenbank von existierenden Domains zu erstellen da wir diese benötigen.

Um das ganze zu beschleunigen wollten wir daher gern mehrere Rechner verbinden.

gruß
Danny
danny
 
Beiträge: 2
Registriert: So Okt 16, 2011 8:43 pm

Re: Robinson Modus im Netzwerk?

Beitragvon Vega » Do Okt 20, 2011 10:01 pm

Hallo Danny,

vieles dazu steht in YaCy unter http://deinperr:8080/CrawlStartSite_p.html - YaCy wird gebremst beim Crawlen von Servern im Internet, das ganze geschieht mit der Absicht um Beschwerden von Webmastern zu vermeiden. Das ganze ist auch nicht abschaltbar, ebenso wie das beachten der robots.txt.
Was Ihr machen könnt, eure Crawling Liste auf mehrere Rechner aufzuteilen, die dann parallel dieses abarbeiten, damit kommt Ihr schneller voran. Bei "Dicken Eisen" als Servern solltet Ihr über Virtualisierung nachdenken um die Hardware auszulasten. Mehrere kleine Peers sind (meistens) schneller als ein riesengroßer Peer.

Gruß,
Thomas

danny hat geschrieben:Hi,

wir crawlen allgemein alles, idr. Beginnend in einem Webverzeichnis (DMOZ o.ä) allerdings je Domain nur oberflächlich (max. 10 Seiten / Domain) mit einer hohen Crawling-Tiefe.

Dies machen wir um eine Datenbank von existierenden Domains zu erstellen da wir diese benötigen.

Um das ganze zu beschleunigen wollten wir daher gern mehrere Rechner verbinden.

gruß
Danny
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Robinson Modus im Netzwerk?

Beitragvon Vega » Sa Okt 22, 2011 3:02 am

Hallo Danny,

was mir gerade noch eingefallen ist, rufe bitte auf Deinem Peer die Seite http://DeinPerr:8089/PerformanceQueues_p.html auf, und ändere ganz unten die Anzahl der Threads unter "Crawler Pool" - einfach mal höher setzten, damit sollten dann mehrere Crawler-Threads parallel gestartet werden. Eventuell mal versuchen die minimale Zeit unter Globale (Internet) Crawls zu ändern.
Bitte mal hier Feedback geben ob dies etwas gebracht hat...

Gruß
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste