Crawling limit fuer eigenen Server aufheben

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Crawling limit fuer eigenen Server aufheben

Beitragvon darkfader » So Jan 01, 2017 8:02 pm

Hallo!

wenn ich es richtig verstanden habe, ist das crawlen fuer ein einzelnes Zielsystem "meineseite.domain.tld" auf 2 hits / sek limitiert.
Stimmt das so?

Ich muss es hinkriegen, dass der Index ein wenig schneller aufbaut.

Warum:
Ich hab so ein Bastelprojekt, im Prinzip das Geocities Archiv per IPv6-only wieder online zu bringen.
Es gibt schon ein paar Mirrors, aber nur wenige und fuer mich ist es ein interessantes Projekt.
Suche hat keiner!
Bisher machen die das auch so, dass sie nur per Request Seiten wieder loeschen.

Ich will generell ne Suche davor tun, zum richtig "Internet surfen" hat ja heute eh keiner mehr Zeit.
Ausserdem wird mir die Suche auch ermoeglichen, schon vorab das (fuer die, die's mal online getan haben / Ersteller) das peinlichste Zeug zu loeschen.

Ich hab eine Gruppe kleine Serverchen, ein paar werden fuer YaCy sein, ein paar Caches und ein paar Webserver.
Und, keine Ahnung, ein paar Mio Seiten, die in den Index sollen.

Ich will die Server zumindest auf Volllast fahren, aber - wenn ich es richtig verstehe - limitiert YaCy eben pro Zielserver den Scan.
Das ist in meinem Fall wohl einer!

Wie sollte ich vorgehen?
darkfader
 
Beiträge: 3
Registriert: So Jan 01, 2017 3:00 pm

Re: Crawling limit fuer eigenen Server aufheben

Beitragvon sixcooler » Mo Jan 02, 2017 8:10 pm

Hallo darkfader,

man kann sich eine robots.txt schreiben in der man ein zügigeres crawlen gestattet - siehe : PPM limitations in YaCy?

cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Crawling limit fuer eigenen Server aufheben

Beitragvon darkfader » Di Jan 03, 2017 12:12 pm

sixcooler hat geschrieben:Hallo darkfader,

man kann sich eine robots.txt schreiben in der man ein zügigeres crawlen gestattet - siehe : PPM limitations in YaCy?

cu, sixcooler.


Vielen Dank, ich werd's probieren!
(Der robots-wait wird aber immer mit 0ms angezeigt. Aber versuchen kostet schliesslich nix :-)
darkfader
 
Beiträge: 3
Registriert: So Jan 01, 2017 3:00 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste