Sonntag ist Remote Crawl Tag

Ereignisse, Vorschläge und Aktionen

Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 04, 2009 3:16 pm

Moin Moin,

ich will mal ein bisserl was testen mit remote Crawls, dh es wäre schön wenn am Sonntag (11.1.) so viele Remote Crawl Jobs wie möglich anstehen würden.
Von 10 - 16 Uhr werden 30 Rechner mal als RemoteCrawler vorhanden sein.

Grüße
lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon dulcedo » Mo Jan 05, 2009 5:23 am

Dazu fällt mir ein dass ich andere Peers oft nicht "sehe", also deren Remote-Crawls, das ist immer der Fall wenn in der Peer-Übersicht das "S" gelb eingefärbt ist ('passive'). Hängt, wie hier gelesen wohl mit der Seed zusammen, aber mich würde doch mal näher interessieren warum das so ist und wie man es steuern/umgehen kann. Dummerweise betrifft das meistens Peers die ich persönlich für "interessant" halte und denen ich gern mit crawls unter die Arme greifen würde.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » Di Jan 06, 2009 2:34 pm

Ich habe rund 1.5 Mio in den (Lokalen)Queue, was davon "am ende des Astes" ist und somit zum RemoteCrawl wird, wird meist innert 5-10 Minuten abgebaut, also kann ich Dir nicht wirklich mit RemoteCrawls helfen, da bereits sehr viele von den RemoteCrawls "leben" .. also Hutab, die RemoteCrawl funktion ist gut optimiert worden :-D
...
Gibt es denn ein Setting (0.610/05246), um mal "vorübergehend" meine Remotecrawl JobQueue in die Höhe zu treiben?
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » So Jan 11, 2009 12:03 am

So, nur noch 10 Stunden :) Produziert soviele RemoteCrawls als möglich, damit uns lisema zeigen kann, was möglich währe ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 11:13 am

up and running. 28 Knoten nur für remote, 2 alte die noch auf den rechnern waren crawlen so vor sich hin.

Sind allerdings geclonte YaCy instanzen ... ich fürchte das wird noch probleme geben

EDIT:
Es ist immer nur eine Instanz sichtbar. Wo liegen die IDs, damit man sie manuell ändern kann?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » So Jan 11, 2009 12:05 pm

lisema hat geschrieben:Es ist immer nur eine Instanz sichtbar. Wo liegen die IDs, damit man sie manuell ändern kann?

Aus viewtopic.php?f=5&t=1534&p=10941#p10942
<yacy>/DATA/INDEX/freeworld/NETWORK/mySeed.txt löschen sollte reichen (bei nicht freeworld Netzwerkdefintion entsprechend anpassen). Die wird dann beim Start erstellt.

Mein KSBA-BSCW scheint noch alle RemoteCrawl Jobs zu besitzten ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 12:09 pm

Okie Danke.

Dh nochmal in alle 30 rechner einloggen :(

Bin gleich mal wieder da
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » So Jan 11, 2009 12:18 pm

lisema hat geschrieben:Dh nochmal in alle 30 rechner einloggen :(

Ich schätz mal, mehr als 10 braucht es kaum, um alle RemoteCrawl Jobs aufzubrauchen .. bei dem Speed den ich von Dir erwarte :-D
... Aber ich bewunder Dich glcih mal, dass Du für uns Deinen Sonntag investierst. In dem Sinne Ein Dankeschön :geek:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » So Jan 11, 2009 12:46 pm

okidoki, die receipts werden auch schön gesendet. Ich verrate mal wie man das sieht:
http://localhost:8080/CrawlResults.html?process=1&se=
Da steht dann auch, wer den remote crawl durchgeführt hat, und da sind lisemas Rechner auch dabei. Aber auch andere.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 1:02 pm

So sollten nun die meisten "aktiv" laufen. Einer der Xeons mag nicht, ansonsten bin ich mal gespannt, ob man den Impact der Rechner bemerkt.

Nebenbei ist es interessant, wieviel pr0n indexiert wird.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 1:27 pm

Ein paar Maschinen habe ich mal zum Crawlen angeregt. Die Bigs (quads) sowie ein paar der "kleinen"
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 1:38 pm

bluumi hat geschrieben:
Mein KSBA-BSCW scheint noch alle RemoteCrawl Jobs zu besitzten ;)


Schmeisst der den die Crawls unter die Leute, wenn er primär selber crawled?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » So Jan 11, 2009 2:02 pm

Also 14 Crawl receipts habe ich von "Dir" , nach Orbits "Anleitung" ... Hätte nur gedacht, dass das schneller komplett leer wird :-D
Bisher nur von Lisema r10 und r18
[edit] Hoppla, jetzt gehts rund.. Vorher waren es noch nur 50 Receipts, nun schon 370 :-D ... Ok, nun hat es deutlich mehr :)
Aber Orbiter hat recht, es hat nicht nur Rechner "von Dir", auch das KIT hat das viel am start und andere.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » So Jan 11, 2009 2:21 pm

wir haben übrigens seit gestern (erstes mal gesehen, noch vor lisemas Rechner dazu kamen) über 1 Milliarde Links im Netz. Die sind natürlich nicht alle unterschiedlich.
Eben sehe ich > 3000 PPM im Netz, das brummt ja auch ganz schön.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 2:39 pm

Muss man aber Korrigieren.

knapp 1500 ppm sind von mir zum testen.

Gerade nochmal 12 Quads reingeschmissen, die konfiguriere ich mal
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon thq » So Jan 11, 2009 2:45 pm

Kann man nicht noch ein richtigen Crawl-Peer-Modus bauen, wo der Peer alle Daten wieder verteilt und beim DHT-Versand und beim vergeben eines neuen Peer-Hashes dann ignoriert wird ?

Also überhaupt keine URLs und RWIs speichern und dafür eine Statistik über gecrawlte ULRs.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 3:05 pm

Sowas wäre mein Wunschtraum. Die Quads packen locker 700 ppm. Dh momentan wird jeder peer, der Remote URLs hat, vermutlich geddosed.

Es müssen gute CrawlKonzepte her, ich glaube sowas schau ich mir mitte März mal an :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 3:33 pm

Also,
XXX wurde so gut wie leergecrawled


Die Peers, die gerade selber crawlen, werden auch nicht gut bedient und bleiben zum grossen Teil auf ihren Remote Crawls sitzen (ausser sie gehören zu den meinigen, da haben sie durch die 100Mbit Verbindung Reserven, so scheint es mir)

Kann das jemand bestätigen?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Lilirasa » So Jan 11, 2009 4:58 pm

lisema hat geschrieben:Die Peers, die gerade selber crawlen, werden auch nicht gut bedient und bleiben zum grossen Teil auf ihren Remote Crawls sitzen (ausser sie gehören zu den meinigen, da haben sie durch die 100Mbit Verbindung Reserven, so scheint es mir)
Kann das jemand bestätigen?


Bei meinen Peers, welche beide selbst am crawlen sind, hat sich die Queue heute nicht gross verändert.

Lilirasa 1.9 Mio und Swissyacy: 1 Mio noch im lokalen Crawlerpuffer.

Ich schau in 2 Stunden nochmal nach, ob sich was getan hat...
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 5:00 pm

von denen habe ich auch nichts gesehen :(

Und: hier idlen einige Rechner
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Lilirasa » So Jan 11, 2009 5:16 pm

Also ich sehe auf beiden Peers 32 Peers welche "lisema" im Peernamen tragen. Ca. die Hälfte mit passiven Kontakt die andere Hälfte mit direkter Verbindung. Swissyacy ist ein dedicated Server mit 100Mbit Netzanbindung, nutzt davon momentan aber gerade mal um 100-200Kbs. Von der Verbindung her sollte es hier eigentlich keinen Engpass geben. Merkwürdig...
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 5:27 pm

sehr seltsam :(

hab jetzt mal die Kisten runtergefahren.
Feierabend :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon thq » So Jan 11, 2009 5:56 pm

thq hat geschrieben:Kann man nicht noch ein richtigen Crawl-Peer-Modus bauen, wo der Peer alle Daten wieder verteilt und beim DHT-Versand und beim vergeben eines neuen Peer-Hashes dann ignoriert wird ?

Also überhaupt keine URLs und RWIs speichern und dafür eine Statistik über gecrawlte ULRs.
lisema hat geschrieben:Sowas wäre mein Wunschtraum. Die Quads packen locker 700 ppm. Dh momentan wird jeder peer, der Remote URLs hat, vermutlich geddosed.

Es müssen gute CrawlKonzepte her, ich glaube sowas schau ich mir mitte März mal an :)

Das würde aber auch heißen das die Crawlgeschwindigket abhängig davon ist wie schnell die gesammelten Daten wieder verteilt werden können.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » So Jan 11, 2009 6:13 pm

Also an den eigenen Crawls dürfte es nicht übermässig gelegen haben. KSBA-BSCW hat zwar nur 10Mbit Anbindung, aber auch ich kann bestätigen, dass diese noch massiv Reserven gehabt hätte für Kommunikation. (Yacy nutzte rund 100kb/s in den letzten 24h)
Die Anzahl in der Remote Queue ging zwar nicht runter, aber nahm auch nicht mehr in dem Masse wie zuvor zu, und es sind viele erledigte RemoteJobs sichtbar ...
Vorallem von tp-work242 / KIT050F300liebel-lab / lulabad-eee01 / KIT051F300LL
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 7:03 pm

thq hat geschrieben:
thq hat geschrieben:Kann man nicht noch ein richtigen Crawl-Peer-Modus bauen, wo der Peer alle Daten wieder verteilt und beim DHT-Versand und beim vergeben eines neuen Peer-Hashes dann ignoriert wird ?

Also überhaupt keine URLs und RWIs speichern und dafür eine Statistik über gecrawlte ULRs.
lisema hat geschrieben:Sowas wäre mein Wunschtraum. Die Quads packen locker 700 ppm. Dh momentan wird jeder peer, der Remote URLs hat, vermutlich geddosed.

Es müssen gute CrawlKonzepte her, ich glaube sowas schau ich mir mitte März mal an :)

Das würde aber auch heißen das die Crawlgeschwindigket abhängig davon ist wie schnell die gesammelten Daten wieder verteilt werden können.


Yepe. Die Rechner sind mit 100 Mbit angeschlossen, das Gebäude mit 10 GE an das nächste Peering, das, wenn ich mich nicht täusche, mit 20 GBit mit dem DFN peered.

Dh die Kisten hatten Reserven in Bezug auf Bandbreite satt.
Das gleiche gilt für andere Maschinen. Wenn ich Remote Crawle und das ganze auf Platte schreibe, und dann in schönen 1 MB Päckchen komprimiert zurückschicke, könnte das auch was bringen.

bluumi hat geschrieben:Also an den eigenen Crawls dürfte es nicht übermässig gelegen haben. KSBA-BSCW hat zwar nur 10Mbit Anbindung, aber auch ich kann bestätigen, dass diese noch massiv Reserven gehabt hätte für Kommunikation. (Yacy nutzte rund 100kb/s in den letzten 24h)
Die Anzahl in der Remote Queue ging zwar nicht runter, aber nahm auch nicht mehr in dem Masse wie zuvor zu, und es sind viele erledigte RemoteJobs sichtbar ...
Vorallem von tp-work242 / KIT050F300liebel-lab / lulabad-eee01 / KIT051F300LL

Das ist doch super :)
Da hab ich viele Crawls denen weggeschnappt und die haben sich bei dir bedient


Was mich zuerst verwunderte, ist nun eine Vermutung. Von swissyacy könnte ich mit einigen Peers nichts gezogen haben (wie auch bei anderen) weil wir uns nicht gesehen haben. Die Peeranzahl schwankte stark und auch einige eigene Peers waren nicht immer "sichtbar".

Teilweise idelten vermutlich auf meiner Seite auch Kisten,weil sie von keinen weiteren RemoteCrawls wussten.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » So Jan 11, 2009 7:18 pm

ich packe hier mal noch eine Weisheit zu den Remote Crawls dazu, weil ich nicht weiss ob das jedem bewusst ist:
Die Abgabe der remote crawl urls geschieht auch mit einem Balancer, der ggf. die Seite mit den URLs langsamer ausliefert, wenn er einem oder mehreren Crawl-Delays folgen muss. Man könnte ja auch sagen, das man das nicht machen muss, weil der client das ja auch wieder überprüft. Das funktioniert aber nicht richtig, weil es ja sein kann, das dann das gesamte Netz das Crawl-Delay aufgrund von parallelen Anfragen misachtet. Meiner Meinung hätte ein Ausliefern ohne Beachten der 500ms Pause und den robots-erzwungenen Delays ein DDoS zur Folge, oder könnte das verursachen. Das Pausieren stellt dann zwar nicht sicher das es keine Lastspitzen geben kann, aber auf Minuten oder eine Stunde gerechnet wird das Crawl-Delay von mindesten 500ms beachtet.

Das kann dann aber auch der Grund sein, warum die Remote Crawls nicht so schnell verbreitet werden, wie ihr vielleicht denkt.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 8:01 pm

Wird auch wieder zwischen LAN/Rest der Welt unterschieden?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » So Jan 11, 2009 8:09 pm

diese Unterscheidung gibt es sowieso, ein Peer kann zwar beide Bereiche indexieren, die normalen Profile lassen aber entweder nur intranet oder nur internet, nicht aber beides zu. Wie gesagt, es geht, macht aber nur bedingt Sinn.

leider ist mir jetzt das hier aufgefallen:
viewtopic.php?p=11933#p11933
Mist.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » So Jan 11, 2009 8:14 pm

Orbiter hat geschrieben:diese Unterscheidung gibt es sowieso, ein Peer kann zwar beide Bereiche indexieren, die normalen Profile lassen aber entweder nur intranet oder nur internet, nicht aber beides zu. Wie gesagt, es geht, macht aber nur bedingt Sinn.


Ich dachte das Versenden steht unter zwangspause. Das der Loader zwischen lokal und remote bei der Wartezeit keinen Unterschied macht, ist klar :)


Orbiter hat geschrieben:leider ist mir jetzt das hier aufgefallen:
viewtopic.php?p=11933#p11933
Mist.


Cool. Seh es positiv, es waren 6 Stunden. Nächste Woche geht es also in die 2.Runde.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Lotus » So Jan 11, 2009 9:51 pm

Remote Crawls könnten mit einem Trick schneller verteilt werden: Beim Peer Ping werden Remote Crawl akzeptierende Peers zu einem bestimmten Verhältnis bevorzugt, falls Crawls anliegen. Dadurch wissen diese Peers schneller dass es Arbeit gibt. Wie das zur Zeit gelöst ist weiß ich nicht.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » So Jan 11, 2009 11:13 pm

zur Zeit wird immer der Peer angepingt, von dem man am längsten nichts mehr gehört hat. Die Idee ist ja nicht schlecht, aber da muss man nochmal über Seiteneffekte nachdenken.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » Mo Jan 12, 2009 12:19 pm

Ich fände da ein Protokoll ähnlich dem von Switches sinnvoll.

Man überträgt beim Peer Ping eine Liste von Hosts mit einem Faktor, der angibt wieviele Seiten für Remote Crawl dieser hat.

zB
1 für alle unter 1000
2 für bis 5000
3 für bis 10 000
4 Mehr

Man reduziert nun die Nummer um eins für jeden Hop, wenn es indirekt ist.

Beispiel:
Ich sende zu orbiter
lisema 3

orbiter sendet zu wem anderen
lisema 2
Orbiter 4


So verbreitet sich die Information immer weiter, und auch "unsichtbare" Peers erfahren voneinander in Bezug auf CrawlJobs. vielleicht sollte es auch eine Skala für jede 1000 sein bis 16.

Dann können remote Crawler sich direkt bei den Peers "anmelden"
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » Mo Jan 12, 2009 12:39 pm

beim peer ping wird vom pingenden Peer immer sein ganzer Seed übertragen, und der angepingte Peer antwortet mit einer ganzen Liste von seeds. Die seeds haben auch immer die Information wieviele remote crawl urls der Peer hat, dadurch verbreitet sich ja die Information. Nur ist die Zusammenstellung der Liste orientiert an der Aktualität der Peers, der antwortende Peer nimmt immer die neuesten, wobei er selber immer in der Liste des anpingenden Peers der älteste ist.
Wenn man nun die Listen anders zusammenstellt, und nicht das alter des letzten 'hab ich im Ping gesehen' nimmt, weiss ich nicht ob das dann stabil bleibt. Vielleicht kann man ja mischen: ein paar der aktuellen Peers, ein paar der Peers mit interessanten Informationen, wie eben auch die remote crawls.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » Mo Jan 12, 2009 12:51 pm

Vielleicht lohnt es sich auch, einen zweiten Ping einzurichten. Indem nur die RemoteCrawlwilligen und die mit Remote Crawl Jobs drin sind.
So kann dann auch jeder einstellen, ob er remote Crawlen will. Sodass man darüber vielleicht langfristig auch reine CrawlerInstanzen bauen kann, die dann nicht in der normalen Netzwerkliste auftauchen.

Ansonsten klingt das Ping Protokoll komisch. So wird vermutlich keine Teilung des Netzes erkannt und wenn peers die PingZeiten manuell verändern könnten sie "komische" Resultate bringen.

Warum nicht mal ein Supernode Konzept probieren, wo die stabilen Knoten dort helfen, dass die Zellen nicht zu gross werden.
Also 15 Knoten Pro Zelle, Supernodes sind stabile Knoten die minimal X Stunden sichtbar sind. Jeder Peer ist bei 2 (3..) Supernodes
Die vielen Crawler am Sonntag dürften das Ping Konzept am Ende auch komisch beeinflusst haben.

Ansonsten denke ich, dass das bisher verwendete Verfahren für kleine Gruppen OK ist.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » Mo Jan 12, 2009 12:59 pm

die 'Supernodes' sind die Principal peers. Sie akkumulieren die Seeds und laden sie zu einem Account hoch, wo sie wieder per http geladen werden können. Das machen ja auch alle Peers beim Start-up.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » Mo Jan 12, 2009 1:00 pm

ah super, danke
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » Mo Jan 12, 2009 1:25 pm

Orbiter hat geschrieben:die 'Supernodes' sind die Principal peers.

Dann muss ich vielleicht auch mal nachlesen was ich genau machen muss um einer der Kisten dieses Seeden beizubringen :)
Denn bisher sah ich nicht wirklich ein, wieso ich dies auch noch aktivieren soll ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » Mo Jan 12, 2009 1:41 pm

Bitte auch gleich einmal dokumentieren. Andere könnten davon profitieren :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » Mo Jan 12, 2009 1:59 pm

kleiner Tipp dazu: man kann die Adresse der Seed-List von jedem Principal Peer sehen, indem man in der Netzwerklist mit der Maus über das kleine grüne P fährt, das ist dann der Link zu der Seedliste. Wäre wirklich gut wenn mal jemand nachguckt ob die Doku dazu noch gut ist und im Wiki ein Update macht. Ich weiss, ich könnte das sicher selber am besten, aber lasst mir mal bitte Zeit für anderes.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon lisema » Mo Jan 12, 2009 2:21 pm

Na klar. Geht mir ja auch so, bin in einer Phase ohne Zeit und kann deshalb nur Sachen reinwerfen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Sonntag ist Remote Crawl Tag

Beitragvon bluumi » Mo Jan 12, 2009 5:07 pm

Orbiter hat geschrieben:Wäre wirklich gut wenn mal jemand nachguckt ob die Doku dazu noch gut ist und im Wiki ein Update macht.


Leider konnte ich aus dem Geschäft nicht auf die Suche im Wiki zugreifen, da diese auf Port 8000 läuft. Habe jedoch meinen Grossen Peer nun in einen Principal verwandelt, hat das nun für die anderen nen Vorteil? Findet man meinen Peer dadurch einfacher?
Ich schau mir bei Gelegenheit mal die Doku an, wenn ich zuhause bin und auf diese zugreifen kann.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Sonntag ist Remote Crawl Tag

Beitragvon Orbiter » Di Jan 13, 2009 11:40 am

neue principals haben nur impact auf das Netz, wenn sie über eine superseed-Definition in der Netzdefinition eingetragen werden. Das mache ich nach einer Auswahl von bekannten und zuverlässigen principals manuell vor jedem Release. Da die Information über die Principals aber ja auch im Netz für jeden Peer zu lesen ist, könnte man auch über eine andere Vorgehensweise nachdenken, beispielsweise ein Pflege von principal Listen im Peer. Insgesamt ist es aber gar nicht notwendig so viele Principals zu haben, einer würde schon reichen, dann noch einer als backup, ...
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sonntag ist Remote Crawl Tag

Beitragvon dulcedo » Mi Jan 14, 2009 6:15 am

Ich stelle grade fest dass man sich nun wirklich prima aushelfen kann, hoffentlich kein Zufall, die entsprechenden Peers haben sich gefunden: ein KIT-Rechner mit der guten Anbindung stellt eine Menge Remote-Crawls zur Verfügung, und 2 über DSL angebundene Peers (neue release) die Bandbreite übrig haben, grasen die nun in maximal möglicher Geschwindigkeit ab. Ohne Benutzereingriff, habe nur den Wert für max-erlaubte Remote-Crawls auf jeweils 150 gestellt.

Fein!
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast