Traffic fuer eine Node...

Ereignisse, Vorschläge und Aktionen

Traffic fuer eine Node...

Beitragvon disi » Do Jun 17, 2010 10:21 am

Ich habe das nun mal ueberprueft und der Peer laeuft nun seit 2 Tagen. Hier sind die Ergebnisse:

date, sent, received
2010-06-15, 425 Mbytes, 3 Gbytes
2010-06-16, 394 Mbytes, 2 Gbytes

Da ist noch vielleicht 1-2% normaler Traffice drin, der Rest ist Yacy... :D
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: Traffic fuer eine Node...

Beitragvon Orbiter » Fr Jun 18, 2010 8:08 pm

eieiei und was hast du auf dem node eingestellt, auch einen eigenen crawl? Ohne einen eigenen crawl wäre das nämlich recht viel, kann mir das gar nicht vorstellen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Traffic fuer eine Node...

Beitragvon disi » Fr Jun 18, 2010 8:33 pm

Jo, macht aber nichts. Habe 750GB/Monat da faellt das nicht weiter auf.
Ich lasse einiges laufen, will ja auch was schaffen :)

Eins konnte ich feststellen, die remote crawls bremsen furchtbar aus. Die PPM gehen teilweise auf 0-10 wenn ich remote anhabe und meine eigenen Links gehen kaum hoch.
Wenn ich remote abstelle liege ich so bei 50-100 PPM auf lokale crawls.

Vermutlich sind die remote Seiten dann so ganz kleine Server, wo man eher den Timeout bekommt anstatt eine Antwort?

Ein paar Fragen:
1. Wenn Jemand mich fuer remote benutzt, lerne ich die Links dann auch kennen?
2. Wenn ich eine Blacklist habe, wird die automatisch gefiltert oder muss ich immer den Cleaner laufen haben?
3. Werden Links gecrawled, die andere schon ins globale RWI eingetragen haben? (praktisch doppelt)
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: Traffic fuer eine Node...

Beitragvon Orbiter » Fr Jun 18, 2010 8:56 pm

ok,
was bremst denn: dass du die Links der anderen lädst oder dass die anderen deine laden?

zu 1: ja, jede einzelne URL wird als 'receipt' an dich geschickt. Du hast dann die remote geladene URL auch im eigenen Index, aber ohne die Textdaten (ist ja klar). Aber das bewirkt bei dir lokal einen double-check so dass dein peer die nicht auch noch läd. Die einzelnen Receipts sind übrigens noch eine Designlücke, hier müssten bulk-receipts gesendet werden statt einzelne
zu 2: ja ohne cleaner. Wenn du auf die blacklist-Seite guckst siehts du rechts checkboxen worauf die Liste wirken soll. Per default wirkt sie auf alles. Der Cleaner ist nur dann notwendig wenn du eine neue URL einträgst und du die auch nachträglich auf die Datenbank anwenden willst
zu 3: wenn du die URLs nicht kennst: ja. Wenn man hier bei jeder URL in die DHT fragen würde hätte man eine erbärmliche PPM und ggf. sogar mehr traffic. Die doppelten sind auch nicht so schlimm, ein wenig Redundanz für gewünschte Inhalte ist ja ganz gut.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Traffic fuer eine Node...

Beitragvon disi » Fr Jun 18, 2010 9:05 pm

Ich kann es nicht genau sagen. Wenn ich remote anstelle kommen ca. 100 Anfragen rein, die in der Queue landen. Dann zusammen mit den Lokalen droppen die PPM auf ca. 0-50

Rein technisch finde ich das remote crawlen genial :)

//edit: hier will ich nichts anpacken, alles default: Performance Settings of Queues and Processes

//edit: Liste ist fuer alles an: proxy crawler dht search surftips news

//edit: ich bin positiv ueberrascht ueber die geringe Systemauslastung.
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron