Sonntagscrawl

Ereignisse, Vorschläge und Aktionen

Sonntagscrawl

Beitragvon lisema » Do Jan 15, 2009 8:34 pm

Moin,

Sonntag fahre ich wieder ein paar Kisten an. Die Crawlen auch wirklich alles, ohne Restriktionen. Also keine Hemmungen Remote Crawl jobs zu starten, Sonntag von 11 - 17 Uhr sollte einiges abgebaut werden.

Grüße
Lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon bluumi » Do Jan 15, 2009 8:50 pm

Über 3 Mio stehen für Dich bereit, ich hoffe nur, Deine Peers sehen meinen KSBA-BSCW (1 Mio) diesmal auch ;) und leeren nicht nur die beim KIT :-D . . . ich brauche Deine Hilfe beim abbauen 8-) :oops:

Jedenfalls freue ich mich auf Runde ZWEI :geek:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon thq » Do Jan 15, 2009 9:12 pm

Wenn es wieder nicht klappt, würde ich mal zum testen den Crawler etwas einbremsen damit dein Peer auch wirklich Reserven hat. Vielleicht war er ja nur schlecht erreichbar.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Sonntagscrawl

Beitragvon bluumi » Fr Jan 16, 2009 12:26 am

thq hat geschrieben:Crawler etwas einbremsen damit dein Peer auch wirklich Reserven hat.

Jo, habe mir schon vorgenommen den lokal Crawl eventuell für ein paar Stunden zu stopen..
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon rzkh » Fr Jan 16, 2009 1:20 am

bluumi hat geschrieben:Jo, habe mir schon vorgenommen den lokal Crawl eventuell für ein paar Stunden zu stopen..


Mal an alle - ich wollte eben mal probieren, wie viel Remote Crawling so geht. Also lokale Crawl-Liste geleert, remote crawlink ist aktiv (mit erlaubten 600PPM), aber es kommen in der letzten halben Stunde nur 2-5PPM dabei raus. Stimmt da was nicht?

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: Sonntagscrawl

Beitragvon bluumi » Fr Jan 16, 2009 5:34 pm

rzkh hat geschrieben:Stimmt da was nicht?
-h


Wenn Du die Yacy Netzwerk Ansicht der Aktiven Peer's machst, siehst Du dann viele Peers mit Crawl Jobs?
Um auszuschliessen, dass dein Peer grad nur nicht Kontakt zu denen hat die was in der Queue haben.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon lisema » Sa Jan 17, 2009 12:21 pm

Das habe ich letzte Woche schon beobachtet. Es waren kaum remote Crawls sichtbar.

Die im gleichen Subnetz haben teilweise erheblich zugearbeitet, waren natürlich aber mit 100 Mbit verswitched. Aber zB die grossen Dedicated Server sind von den Kisten ja auch mit 100 Mbit erreichbar. Daher wunderte es mich. Morgen mal schaun :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon rzkh » So Jan 18, 2009 1:11 am

bluumi hat geschrieben:
rzkh hat geschrieben:Stimmt da was nicht?
-h


Wenn Du die Yacy Netzwerk Ansicht der Aktiven Peer's machst, siehst Du dann viele Peers mit Crawl Jobs?
Um auszuschliessen, dass dein Peer grad nur nicht Kontakt zu denen hat die was in der Queue haben.


Sorry, vielleicht verstehe ich Dich miss? :) Die Maschine läuft seit ein paar Tagen ohne selbst zu indexieren, wartet alsu auf Remote Crawls. Im Netz sieht sie immer so 70-80 Aktive Peers, und einige davon bieten ja trilliarten URLs an ;-)

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: Sonntagscrawl

Beitragvon rzkh » So Jan 18, 2009 1:19 am

lisema hat geschrieben:Das habe ich letzte Woche schon beobachtet. Es waren kaum remote Crawls sichtbar.

Die im gleichen Subnetz haben teilweise erheblich zugearbeitet, waren natürlich aber mit 100 Mbit verswitched. Aber zB die grossen Dedicated Server sind von den Kisten ja auch mit 100 Mbit erreichbar. Daher wunderte es mich. Morgen mal schaun :)


Den Effekt kenne ich auch, Maschinen im gleichen Subnetz finden sich gerne etwas schneller und tauschen sich gut aus. Mich wunderte nur grade, dass die kleine RZKH_POWER_515 sich tagelang langweilg und Remote Crawl mit etwa 10-30PPM hinkriegt, obwohl geschätzte 400-600 drin sein sollten... Netzanbindung ist DSL16000, kanns eigentlich nicht sein. CPU ist im Schnitt bei 5%, wirds auch nicht sein. Sind 14 Platten drin, bremst auch nicht. Denn wenn ich sie direkt crawlen lasse, geht der Punk ab.

Frage an die Spezialisten: kann es irgendwie sein, dass ein Peer, dem langweilig ist, keinen Bock hat, Remote Crawls auszuführen? :)

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 10:40 am

Nicht ganz das gleiche.

Hier hängt jeder Rechner an einer öffentlichen IP, 100 Mbit hat jeder Rechner im LAN, das LAN ist mit 10 GBit angeschlossen.


Ich hab erstmal die 30 kleinen C2Ds hochgefahren, um 12 werfe ich die Quads dazu.

Happy crawling
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 11:00 am

bluumi, dein peer versteckt sich. Meine Idlen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 11:12 am

Nach ein bisserl Nachdenken, habe ich von einem peer (lisema-rc1) mal die core zeit auf 1 Sekunde gestellt, weil ja der Peer angepinged wird, der am längsten verschollen ist. So langsam füllt sich die aktiv peer Liste nun. Ich sehe Remote Crawl jobs :)

Fange ich damit Nachteile ein? Floode ich das Netz?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon bluumi » So Jan 18, 2009 11:15 am

lisema hat geschrieben:bluumi, dein peer versteckt sich. Meine Idlen.

Also mein KSBA-BSCW ist von 1.859 mio auf 1.852 Mio "gefallen" ... immerhin 7'000 Page in 80Minuten ;) :|
(er sieht 12x lisema' peers in den aktiv Peer Liste)

// ksba-yacy sieht 13x Lisema Peers, werde ihn nun auch LokalCrawl stopen, denn seine remoteQueue [24.750>24.840] fiel nicht in der stunde .. :(
ksba-yacy ist aber so oder so der mit der Speicherknappheit
Zuletzt geändert von bluumi am So Jan 18, 2009 11:23 am, insgesamt 3-mal geändert.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 11:15 am

Hmm noch sind in den normalen Peers Karteileichen von letzter Woche, nach einer Uptime von 34 Minuten sind noch lisema-bigrcs da. Die laufen gerade nicht. Sieht die noch einer?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon bluumi » So Jan 18, 2009 11:20 am

lisema hat geschrieben:Hmm noch sind in den normalen Peers Karteileichen von letzter Woche, nach einer Uptime von 34 Minuten sind noch lisema-bigrcs da. Die laufen gerade nicht. Sieht die noch einer?

/Network.html?match=lisema&page=1&search=Search
Nope. Unter den Active, da schaue ich, sehe ich nur lisema-rc(zahl) und einen lisema-w3c
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 11:24 am

bluumi hat geschrieben:
lisema hat geschrieben:Hmm noch sind in den normalen Peers Karteileichen von letzter Woche, nach einer Uptime von 34 Minuten sind noch lisema-bigrcs da. Die laufen gerade nicht. Sieht die noch einer?

/Network.html?match=lisema&page=1&search=Search
Nope. Unter den Active, da schaue ich, sehe ich nur lisema-rc(zahl) und einen lisema-w3c


gut. Dann müssen die peers nur noch den alten Müll loswerden.

Als Idee beim Startup alle bekannten Peers im 1 Sek takt durchpingen. Später dann auf weniger runterfahren.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 12:16 pm

Kaputtkonfigurierte Peers... Ein paar Setting Änderungen haben lisema-w3c von 50 ppm auf 200+ ppm gehievt. Im laufenden Betrieb

EDIT: auf 330 ppm
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon Lilirasa » So Jan 18, 2009 12:25 pm

330ppm?! Hätte ich auch gerne. :-) An welchen Schaltern hast Du da gedreht?
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Sonntagscrawl

Beitragvon Orbiter » So Jan 18, 2009 12:28 pm

lisema hat geschrieben:Als Idee beim Startup alle bekannten Peers im 1 Sek takt durchpingen. Später dann auf weniger runterfahren.

Das skaliert nicht bei beliebig vielen Peers. Man kann und sollte das aber so ähnlich machen, indem man beispielsweise eine Teilmenge nimmt, sagen wir 10. Genau so wird es gemacht. Dabei werden immer nur die aktuellsten ausgewählt, damit die Peer-Liste möglichst frisches Blut bekommt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 1:11 pm

Orbiter hat geschrieben:
lisema hat geschrieben:Als Idee beim Startup alle bekannten Peers im 1 Sek takt durchpingen. Später dann auf weniger runterfahren.

Das skaliert nicht bei beliebig vielen Peers. Man kann und sollte das aber so ähnlich machen, indem man beispielsweise eine Teilmenge nimmt, sagen wir 10. Genau so wird es gemacht. Dabei werden immer nur die aktuellsten ausgewählt, damit die Peer-Liste möglichst frisches Blut bekommt.



Yepe. Ging mir eher darum, dass noch 20 Karteileichen drin waren.
Man kann und sollte nachher auch immer nur eine Teilmenge vom Netz sehen.


BTW 3 Dicke sind hoch
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 2:27 pm

Es sind nochmal ein Satz Dicke Rechner oben. Hoffe dass die nun wenigstens was weghauen
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon rzkh » So Jan 18, 2009 2:55 pm

lisema hat geschrieben:Es sind nochmal ein Satz Dicke Rechner oben. Hoffe dass die nun wenigstens was weghauen


Ich lass jetzt auch mal 2 kleine und einen dickeren Apparat mitlaufen. Die warten drauf, Remotcrawls ausführen zu dürfen, aber viel kommt da nicht... liegts vielleicht an der etwas älteren Yacy-Version?

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 3:09 pm

Also bei mir haben die alten Versionen besser gezogen 0.618 glaub ich wars.

unabhängig davon, schau dir mal die sichtbarkeiten an. Danach spiel mal mit den YaCy Core Thread Zeiten, ich hab einen Peer mal auf 2000 ms gesetzt, danach hat der sehr schnell das Netz neu erkundet und wieder viele Peers gefunden.

Momentan überschwemme ich das YaCy Netz mit eigenen Remote Crawls, der Durchsatz ist aber sehr bescheiden. Der war letzte Woche deutlich besser.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon thq » So Jan 18, 2009 3:14 pm

Möchte aber nochmal darauf hinweisen das, so schön das Ganze auch ist, YaCy immer noch am meisten von Peers profitiert die dauerhaft am Netz sind und die Daten speichern. Nur wenn wir das schaffen sinkt die Last des einzelnen Peers weil er durch die bessere Verteilung weniger Daten speichern muss.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Sonntagscrawl

Beitragvon lisema » So Jan 18, 2009 3:22 pm

richtig. aber das ist auch mehr dafür da, um zu schauen, wie sich die Remote Crawls verteilen, Sichtbarkeiten im Netz etc. Spielen mit Settings.
Das Netz profitiert aber sehr wohl von dauerhaften Crawlern, die nur remote arbeiten.
Und solange YaCy zu Ressourcenlastig ist, wird sich das leider nicht ändern. Hier kann ich jedenfalls keinen 24/7 Peer betreiben, wenn auf den Kisten auch mal gerendert/compiled/Maya benutzt werden soll. Sind also nur Lasttests, wobei die Ressource Netzwerk nahezu unbeschränkt ist.

Dauerhaft ist sowas keine Lösung, aber kurzfristig kann man eine Menge von lernen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon Huppi » So Jan 18, 2009 10:07 pm

kurzfristig kann man eine Menge von lernen.


Ja, ich halte das für wichtige Experimente!
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Sonntagscrawl

Beitragvon bluumi » So Jan 18, 2009 10:34 pm

"Absurd" finde ich, auf KSBA-250 habe ich die Queue leer laufen lassen und der findet nun genau keinen der Peers mit etwas in der RemoteQueue.
Während KSBA-BSCW, der ja noch längst genug in der Queue hätte, 14 Peers mit etwas in der Remote Queue findet und seltsamerweise auch zum KSBA-250er kontakt aufnehmen kann, nur andersrum geht es nicht. Wohl ein EinstellungsFehler an KSBA-250er Peer, trotzdem unfair :) dass der Peer, welcher Arbeit hat denjenigen ohne Arbeit sieht, aber der ohne nicht zu dem mit Kontakt aufnehmen will. :|
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon lisema » Mo Jan 19, 2009 11:48 am

Genau das war auch meine Erfahrung. Obwohl viele der Testpeers wahnsinnige Mengen, warum auch immer so schnell zusammengekommen, an RemoteCrawls hatten, sind einige RemoteCrawler bei 70 ppm andere sehen aber Null.

Dem sollte man mal zu gegebener Zeit nachgehen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon dulcedo » Do Jan 22, 2009 11:16 am

lisema hat geschrieben:Also bei mir haben die alten Versionen besser gezogen 0.618 glaub ich wars.

unabhängig davon, schau dir mal die sichtbarkeiten an. Danach spiel mal mit den YaCy Core Thread Zeiten, ich hab einen Peer mal auf 2000 ms gesetzt, danach hat der sehr schnell das Netz neu erkundet und wieder viele Peers gefunden.

Momentan überschwemme ich das YaCy Netz mit eigenen Remote Crawls, der Durchsatz ist aber sehr bescheiden. Der war letzte Woche deutlich besser.


Das habe ich nun auch schon getan/beobachtet und er findet dann wirklich schneller wieder Jobs.
Allerdings geht das dann, zumindest bei mir, zulasten der Crawl-performance, ich habe den Einfruck wenn er durch den core kurz
ausgebremst wird braucht er anschliessend immer eine ganze Weile bis die ppm wieder ansteigen, dann aber schon der nächste core-task.

Müsste man mal eine guten Standartwert finden, 2000 ist zu kurz, aber die Vorlage 180000 auch zu lange.
Ich habe zwar schon schrittweise erhöht und erniedrigt aber bekomme nur entweder einen flotten crawler oder eine ständig aktuelle Peerliste.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Sonntagscrawl

Beitragvon thq » Do Jan 22, 2009 11:34 am

Das ist leider ein Problem von YaCy, das unter Last nicht mehr geantwortet wird. Es müsste ein Weg gefunden werden was sicherstellt das immer eine Antwort rausgeht, auch wenn es nur ein Busy ist. Alle 2 Sekunden ein Ping bringt aber auch nichts, dann ist YaCy ja nur noch damit beschäftigt und legt die Peers damit lahm ;)

Ich hatte "YaCy Core" schon mal umgebaut, aber Orbiter hat es dann leider wieder rausgeschmissen, wollte es aber wieder angepasst einbauen, die Frage ist nur wann !?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Sonntagscrawl

Beitragvon bluumi » Do Jan 22, 2009 11:50 am

Hab denn nur ich diesen Fehler in den Logs?
Code: Alles auswählen
W 2009/01/22 11:46:44 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'soleil': probably bad response from remote peer (1), reader == null
W 2009/01/22 11:46:45 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'Tigma': probably bad response from remote peer (1), reader == null
W 2009/01/22 11:48:55 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'apfelmaennchen': probably bad response from remote peer (1), reader == null
W 2009/01/22 11:49:02 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'lilirasa': probably bad response from remote peer (1), reader == null


Für mich würde dies die momentane Situation mit den RemoteCrawls erklähren, wenn die Peers jeweils aus der Liste fallen.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntagscrawl

Beitragvon lisema » Do Jan 22, 2009 4:43 pm

thq hat geschrieben:Das ist leider ein Problem von YaCy, das unter Last nicht mehr geantwortet wird. Es müsste ein Weg gefunden werden was sicherstellt das immer eine Antwort rausgeht, auch wenn es nur ein Busy ist. Alle 2 Sekunden ein Ping bringt aber auch nichts, dann ist YaCy ja nur noch damit beschäftigt und legt die Peers damit lahm ;)


RIchtig, nach dem Starten schnell das Netz zu erkunden bringt halt einen Bonus, langfristig ist es aber quatsch so schnell peers zu pingen. Das Herabsetzen war auch eher eine Reaktion auf Orbiters Antwort, dass immer der Peer mit dem ältesten Kontakt gepingt wird. Dh wenn man startet hatte ich erstmal die 1 Woche alten Peerlists, die natürlich Mist sind. Ich hatte mir erhofft, indem ich ausserhalb des normalen arbeite, durch die Verschiebungen der Zeiten für mich einen Vorteil zu erlangen. Ob das klappt will und kann ich jetzt nicht beantworten. Bei einige Peers hat es deutliche Verbesserungen gebracht, weil 0 ppm einfach nur steigerbar ist ;)

Ich denke, dass bei YaCy einiges am Unterbau gemacht werden kann. Es müssen nur mutige es mal Probieren und viel Zeit reinstecken :)
Ich schau mal, dass ich in einem Jahr mal effiziente Parallel Algorithmen höre, denn ich denke, dass MultiCore Standard wird. Auch scheint beim Threading einiges nach meinem Verständnis komisch zu sein, dafür müsste ich aber erst den Code anschauen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntagscrawl

Beitragvon lisema » Sa Jan 24, 2009 12:18 pm

FYI morgen fahre ich wieder ein paar Kisten hoch.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron