Kurzzeit Crawlen

Ereignisse, Vorschläge und Aktionen

Kurzzeit Crawlen

Beitragvon lisema » So Dez 14, 2008 8:26 pm

Moin,

zuallererst einige Klarstellungen meinerseits, ich habe momentan leider wenig Zeit alles mögliche zu lesen und mich "vernüftig" einzuarbeiten in Yacy. Ich denke, das ist keine gute Startposition, ich habe vor Jahren mal Yacy benutzt und würde es gerne wieder unterstützen.

Ich kann, höchstwarscheinlich, relativ viel Rechenpower für Yacy nutzen, leider aber immer nur für ein paar Stunden am Stück. (Ich denke 6, 1x pro Woche). Dh ich könnte crawlen, müsste danach aber meine Datenbank loswerden, da ich auf den Rechnern keinen größeren Speicherplatz auf Dauer habe, bzw nicht haben will. Die Internetanbindung ist kein Flaschenhals und jede Rechnerkonfiguration ist mehrfach vorhanden, die Rechner haben folgende Konfigurationen:
P4 3 Ghz 1 GB RAM Win/Linux
C2D 2,x GHz 2 GB RAM Win/Linux
C2Q 6 GB RAM (davon mometan 3 GB nutzbar) Win

24/7 Betrieb ist nicht vorgesehen. Wenn ich das dort dürfte, wäre es für Freenet/Tor. Ich kann also nur ein paar CPU Stunden beisteuern, sowie die passende Bandbreite.

Deshalb einige Fragen:
Kann man inzwischen seine ercrawlten Daten weiterreichen?
Wie lange dauert dieser Vorgang?
Gibt es Linklisten, die ercrawled werden sollen, wo aber keine Kapazität vorhanden war, oder muss ich quasi jedesmal neu starten und hinzufügen?

Vermutlich werden noch viele weitere Fragen im Laufe des Betriebs dazukommen.

Kann ich damit Yacy helfen, oder scheitert es an der Datenweitergabe?

Grüße
lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon PCA42 » Mo Dez 15, 2008 11:27 pm

Grundsätzlich scheitert es nach meinen Erfahrungen an der Datenweitergabe. Der Crawler ist derzeit so leistungsfähig, dass er die innerhalb von 6 Stunden ca. 2 GB crawlen kann. Das gilt vor allem für neue Peers. Und bei der Hardware mit dem Speicher erst recht.

Nun kommt aber das Problem aus meiner Sicht. Der Peer muss die Daten dann auch wieder loswerden. Klar, dass kann er auch während dem Crawlen aus dem DHT-Cache (optimal, weil die Daten nie die Festplatte sehen :-)) und von der Festplatte. Und da wären wir nach meinen Test bei dem Problem: es wird immer der RAM-Cache bevorzugt. Auch wenn dort kein Transfer über die maximalen 1000 RWI's (default) erfolgen kann, wir immer erst der RAM-Cache geleert, bevor die Festplatte angefasst wird. Kommen durch langsames Crawlen wenig Worte in den Cache, wird DHT-Out langsam. Kommen viele Worte in den Cache, wird DHT-Out schneller. Aber egal wie du es drehst, es wird immer ein Teil des Caches auf die Festplatte geschrieben.

Damit bleibt nur ein zweistufiges Modell: eine Zeit crawlen und dann die Daten per Index-Transfer weiterreichen. Aber der ist meiner Meinung nach für diesen Zweck nicht performant genug.

So, nu der Teil für die Wunschliste:
Eine Crawler für Remote-Crawls, der sich ohne Festplatte-DB betreiben lässt. Einfach nur in den RAM-Puffer crawlen, bis der voll ist und auf die Verteilung warten..... Als Laie sag ich mal, dass sich dass doch aus den bestehenden Programmteilen stricken lassen sollte. Vielleicht fällt das ja sogar beim den geplanten Redesign vom DHT-Out mit ab ;)
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Kurzzeit Crawlen

Beitragvon Lilirasa » Mo Dez 15, 2008 11:59 pm

PCA42 hat geschrieben:So, nu der Teil für die Wunschliste:
Eine Crawler für Remote-Crawls, der sich ohne Festplatte-DB betreiben lässt. Einfach nur in den RAM-Puffer crawlen, bis der voll ist und auf die Verteilung warten..... Als Laie sag ich mal, dass sich dass doch aus den bestehenden Programmteilen stricken lassen sollte. Vielleicht fällt das ja sogar beim den geplanten Redesign vom DHT-Out mit ab ;)


Yacy erzeugt für mich momentan einfach zu viel Last als das ich es auf meinen Arbeits-PC lassen würde. Ausserdem sind mir die Daten da drauf auch einfach zu heikel um Sie durch die IO Orgie von Yacy zu gefährden. :) Trotz Backup, irgendwas ist immer Futsch...
Wie auch immer, so eine "abgespeckte" Variante ohne Festplatten-DB würde meinem Arbeits-PC schon eher bekommen...

Fände die Idee aus User-Sicht also nicht schlecht, die Frage ist aber auch ob das für das Netzwerk Sinn macht?
Oder anders gefragt, was passiert, wenn hundert(e?) solcher abgespeckten Clients die "normalen" Clients über DHT mit URL's bombardieren? Das wäre nicht unrealistisch, beim letzten C'T Artikel konnte Yacy kurzfristig eine recht stattliche Zunahme von Peers verzeichnen. Was wäre also, wenn in so einem Artikel dann auch die "schlanke" Variante von Yacy erwähnt würde?

Grüsse
Andi
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Kurzzeit Crawlen

Beitragvon lisema » Di Dez 16, 2008 12:13 am

Danke PCA42.

Um einmal meine Wunschvision zu geben:

es sollte Drohnen geben, die sich bei einem Master registrieren, der dann Anweisungen gibt, was gecrawled wird. Wie PCA42 schon meinte sollten die schlank sein, und keine grossen Anforderungen haben. Ihre Daten schnell in das YaCy Netz speisen und danach ruhig wieder ausfallen können.

Die Knoten, die ich zur Verfügung haben sind zB ideal dafür. Dort könnte ich, zB für das KIT, mal eben eine Menge Crawls erledigen, sei es recrawls oder neue. Aber auch andere könnten sich bei solchen Mastern anmelden und "mal eben die Mittagspause" durch crawlen füllen.
Ich denke, dass man YaCy durch soetwas sehr helfen könnte und so auch Personen, die nur kurz helfen können/wollen einbinden kann.

Grüße
lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon dulcedo » Di Dez 16, 2008 5:52 am

Da möchte ich mich gerne mal einklinken weil das geht stark in die Richtung in der ich Ensatzmöglichkeiten sehe, und zwar Verteilung auf sehr "kleine" Drohnen die nur spezialisierte Arbeiten erledigen.
Wenn ich ein bischen rumspinne und sage dass 0.1% aller Consumer-NAS sich eine spezialisierte YaCy-Drone mitinstallieren lassen und das wirklich fast transparent für den Anwender, dann wären da auf einen Schlag eine Menge Resourcen verfürbar, auch wenn jedes einzelne Kistchen nur mit 32MB Ram und lahmem ARM daherwerkelt.
Sie haben den Vorteil ständig zu laufen, immer angebunden zu sein, und heutzutage "riesige" Festplattenkapazitäten temporär brachliegen zu haben.

SETI hat ja jetzt den Nvidia-Client rausgebracht, die Grafikmonster können mittlerweile sogar WPA-Keys knacken, Einzelbytes in Echtzeit, das bringt YacY natürlich wenig weil Rechenleistung ja weniger das Problem, aber: Könnte man eben auf die Anforderungen von YaCy zuschneiden, alles was den Anwender auf seine Arbeits-PC "nervt" auf so einen Knecht auslagern der eh den ganzen Tag vor sich hinwerkelt.

Ein, auf wenig RAM/niedrige Prozessorleistung optimierter Peer könnte so als Zwischenspeicher für andere Peers, die Daten loswerden müssen, dienen und dann in aller Ruhe weiterverteilen. Selbst aktiv Crawlen natürlich höchtens im Intranet, aber es kommt ja dann eher auf die Verfügbarkeit beim DHT an.

Mein Stand ist bisher dass ich Yacy auf WD-, Buffallo- und Maxtor-NAS zum laufen gebracht habe, sehr sehr lahm und eingeschränkt natürlich aber das liegt eigentlich nur am RAM-Hunger, wenn man den einbremsen könnte und auf Swapping optimiert...
Java wäre bis 1.5 auch auf älteren ARMs machbar, aber auch da braucht man eine Version die auf wenig RAM optiniert ist, WD hat da mit "mio-net' eine Anwendung gebastelt die zwar grausig in der performanz ist aber auf YaCy übertragbar wäre: Vollkomen transparente Installation und Wartung per remote-update, das muss ja kein fester Server wie der von WD sein.
Ich denke eh dass diese ganzen Consumer-System bald auf Atom-Basis arbeiten, dann läuft auch Debian vernünftig, die ersten Geräte dies gibt sind aber imho noch zu teuer und selbst zusammenbasteln (eee-Kistchen) ist zu aufwändig für den normalen Anwender.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Kurzzeit Crawlen

Beitragvon lisema » Di Dez 16, 2008 12:35 pm

dulcedo hat geschrieben:[...]jedes einzelne Kistchen nur mit 32MB Ram und lahmem ARM daherwerkelt.
Sie haben den Vorteil ständig zu laufen, immer angebunden zu sein, und heutzutage "riesige" Festplattenkapazitäten temporär brachliegen zu haben.

Ein, auf wenig RAM/niedrige Prozessorleistung optimierter Peer könnte so als Zwischenspeicher für andere Peers, die Daten loswerden müssen, dienen und dann in aller Ruhe weiterverteilen. Selbst aktiv Crawlen natürlich höchtens im Intranet, aber es kommt ja dann eher auf die Verfügbarkeit beim DHT an.


Ich spinn das mal ein bisserl weiter. Denn was bringt uns diese kleine Kiste, kaum Rechenleistung, viel Platz, ständige Verfügbarkeit, und eine weitere IP (!) wenn sonst nichts da läuft. Wenn die Knoten als Zwischenspeicher herhalten super. Selbst wenn sie die nicht verarbeiten.
Jetzt einen Schritt weiterdenken an Router, wie den WRT, alles wie oben, nur keine HDD. Kann der Helfen? Ja!
Und zwar sind Seiten irgendwann nicht aktuelle. Die WRTs könnten, wenn sie von einer intelligenten Stelle aus koordiniert werden, viel tun. Sie fragen einfach den Last Modified ab von Seiten, die schon vor einiger Zeit ercrawled wurden. Die vom KIT hatten ja maxage oder ähnliches angesprochen. Wenn also ein IndexServer bei sich pakete mit URLs schnürt, die nochmals überprüft werden müssen, können die kleinen Kisten das abarabeiten, und weitergeben, ob die Seite noch aktuell ist oder neu gecrawled werden muss.
So könnte man mit mehr als 20 ppm eine grosse Seite neu überprüfen (vieles ändert sich ja nicht) und die geänderten dann mit 20 ppm von dem Crawler erwischen lassen.

Achja, das ist aber nur Randidee. Wenn man die Infos wann eine Seite ercrawled (gesichtet) wurde erhält würde ich mir das mal im März anschauen.

Aber der Thread schweift ab ;)

Gibt es jemanden der die Datenbanken von mir übernehmen möchte? Wenn ja einfach mal eine Private Nachricht an mich.

grüße
lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon dulcedo » Di Dez 16, 2008 12:51 pm

Klar, Router geht auch ABER, die meisten sind schon mit 16er-ADSL hart am Anschlag, glaube kaum dass da noch viel Rechenleistung übrig bleibt.
Ausserdem brauchts keine eigene IP, ich hab hier z.t. 5 peers auf einer externen IP liegen, haben einfach dann andere Ports. Rest macht die NAT im Router.

Und nun wirklich wieder zurück zum Thema ;-)
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Kurzzeit Crawlen

Beitragvon Huppi » Di Dez 16, 2008 6:22 pm

Ich lenke noch mal ein bißchen vom Thema ab ;-P

Ich denke eh dass diese ganzen Consumer-System bald auf Atom-Basis arbeiten

Ja, darauf spekuliere ich auch. Oder halt VIA. VIA hat ein NAS für Januar 2009 angekündigt, das mit einer sehr sparsamen VIA-CPU auf einem Mini-Board in einem schicken Gehäuse Platz für 2 SATA-Platten bietet, RAM bis 1 oder 2GB. DAS ist dann tatsächlich für ein einfaches NAS viel zu schade und da MUSS eine YaCy-Installation drauf laufen. Eigentlich wollte ich diese Woche ein anderes NAS kaufen, aber jetzt warte ich so lange, bis das VIA-Kistchen verfügbar ist.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Kurzzeit Crawlen

Beitragvon ribbon » Di Dez 16, 2008 7:20 pm

neben CPU-Kraft, Bandbreite gibt es auch Festplatten-Platz als Ressource.
Nur Crawlen bedeutet auch, die Netzwerk-Architektur zu ändern, Drohnen ohne steuernde Master mit genügend Festplattenplatz machen keinen Sinn. Wir sind DHT und nicht Emule-Server und Client. Cloud Computing a la cherrypal kann auch mit 250 MB Festplatten-Platz einen node laufen lassen, es muss ja nur die Verteilbandbreite angepasst werden.
Daher bin ich gegen eine arbeitsteilig organisierte Architektur. Jeder muss auch Festplattenplatz anbieten. Sonst können wir die Server auch wieder zentral bei Google hosten. Wie ist also eine Storage Lösung in dem Modell zu finden? Dann kann man auch nochmal den Storage der Webseiten (als PDF) im offsystem.sf.net überdenken, wenn die Architektur schon arbeitsteilig werden soll.. Wie schnell darf denn 1 GB lokale Datenbank online an andere übertragen werden?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Kurzzeit Crawlen

Beitragvon lisema » Di Dez 16, 2008 8:24 pm

ribbon hat geschrieben:neben CPU-Kraft, Bandbreite gibt es auch Festplatten-Platz als Ressource.
Nur Crawlen bedeutet auch, die Netzwerk-Architektur zu ändern, Drohnen ohne steuernde Master mit genügend Festplattenplatz machen keinen Sinn.


Richtig. Die Drohnen können nie die Grundlast übernehmen und nur bei Spitzen helfen. Die Festplattenkapazität halte ich sogar für die kritischste Resource.

ribbon hat geschrieben:Daher bin ich gegen eine arbeitsteilig organisierte Architektur. Jeder muss auch Festplattenplatz anbieten.


Der Punkt ist, die Nodes können keinen Festplattenplatz liefern. Dh, entweder man nutzt die restlichen Resourcen, die sie stellen können (CPU, Bandbreite) oder man lässt es. In einer homogenen Architektur ist für solche Knoten unter Umständen kein Platz.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon ribbon » Di Dez 16, 2008 9:15 pm

naja, jeder zuwachs ist wohl willkommen, und einen node einfach so laufen lassen geht ja, wenn die distribution der urls adjustierbar ist. Oder: man stellt das Remote Crawlen um, dass beim remote crawlen dann auch die inhalte and den anfordernden host gesendet werden. Wäre das nicht auch für dooble interessant, dass man Seiten durch einen anderen yacy peer als proxy lädt? Remote crawler senden die seite und die indexierung dazu an den anfordernden host, und wer kann und festplatten platz hat, kann sich als remote crawler eine kopie ablagern. Der anfragende hoste an den remote crawler hat zwar nicht die benötigte DHT Distanz, aber da er ja anfragender Host ist, sollte er die Indexierung ebenso bekommen.
Und wenn er dann auch noch die Webseite mitgeliedert bekommt, wäre die VDS hinfällig ;-). Kann man das programmieren?
Dem Remote Crawler kann es ja egal sein, an wen der die Seite als Kopie sendet, den er besucht sie ja eh mit seiner IP und lädt sie. Also: Feature Request: Remote Crawler Nodes als Proxy Peer für Webseiten-Anforderer (ein yacy peer) nutzen..
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Kurzzeit Crawlen

Beitragvon liebel-lab » Di Dez 16, 2008 9:23 pm

hm...kling tein bischen wie majestic aber die idee find eich klasse....ich sag jetzt mal dass wir gerne fuer je jeweils 100 "drohnen" gerne das eine oder andere schnelle TB an platten an den backbone haengen...so als motivation...wenn es dann ein paar 100 drohnen geben soll/wird :-) ...motiviert?
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Kurzzeit Crawlen

Beitragvon lisema » Di Dez 16, 2008 9:26 pm

Ich würde Drohnen liefern. Ob ich 100 Nutzen darf muss ich dann fragen, weil dann auch Strom und Kühlung ins Gewicht fällt. 30 - 50 sollten aber drin sein (1 Tag pro Woche)

Ich könnte eine VM hier vermutlich auch nutzen, zum koordinieren. Aber nicht mit viel Last belegen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon PCA42 » Di Dez 16, 2008 9:56 pm

Wo wir beim Thema Resourcen sind: Zum Auffinden der Wörter brauch der Storage-Peer neben der Festplatte auch ordentlich Arbeitsspeicher für die Indizies (bei meinem Peer derzeit 900 MB für 30Mio Link, 10 Mio Wörter). Das sollte man mal nicht unterschätzen. Und wenn du dann noch direkte Storage-Peers bei einer Arbeitsteilung hast, wird der Wert bestimmt nicht kleiner.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Kurzzeit Crawlen

Beitragvon liebel-lab » Di Dez 16, 2008 9:58 pm

Eigentlich ist es doch ein generelles problem, dass yacy einerseits auf rechner mit wenig hardware und/oder bandbreite laufen soll und andererseits auf guten maschinen die richtig gas geben koennen...eigentlich eine sache die mit ein und derselben konfiguration kaum erreichbar ist (bsp unsere freeworld peers sind eigentlich ueberhaupt nicht ausgelastet und koennten mehr vertragen)....
was waere wenn jede yacy installation "erkennt" um welchen level von rechner es sich handelt und dann eine "harmonisches basissetting" setzt....rechner die lange online sind...schnell auf anfragen reagieren und viel plattenplatz und ram haben steigen im ranking auf..andere die oft offline sind...werden automatisch zu drohnen...
so koennten man sicherstellen dass immer neuere rechner sich nahtlos in das yacy netz integrieren und die aeltesten bzw langsamsten zu drohnen werden....
also neben dem auto-update (das war ein riesenfortschritt) nun auch ein autoranking-status........
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Kurzzeit Crawlen

Beitragvon lisema » Di Dez 16, 2008 11:17 pm

Ja aber man sollte nicht unterschätzen, was spezielle Hardware manchmal bringen kann.
Ein spezieller IndexServer, zB vom KIT oder einer Uni betrieben, kann das Netz erheblich entlasten. Den mit der gleichen Konfiguration ins Feld zu führen und unoptimiert laufen zu lassen, wäre fatal. Vermutlich braucht man sogar ab einer gewissen Größe spezielle Hardware nur für die Datenbanken. (Ich denke da an unsere kleinen Suns mit 32 GB RAM) Für normale Personen werden solche Dimensionen einfach nicht drin sein.

Es sind auch schon einige "Größen" mit drin, sei es das KIT oder das Rechenzentrum Hannover. Die könnten solche Kisten sicher unterstellen. Die zu Füttern ist ein anderes Problem, dass viele PrivatRechner vollbringen können. Vorhin haben die C2Ds auf die ich zugriff hab mit 1,5 GB VM Size und 500 000 RWI Cache sich bei ca 200 PPM eingependelt. Dies geht aber nur solange, wie ich nicht massiv IO auf die Platte(n) habe.

Ich vergleiche einfach mal dreisterweise mit TOR. Dort ist es auch eine heterogene Struktur. EXIT Nodes und normale Knoten. Ein kleiner Kreis von Privatpersonen stellt zB so einen EXIT node, der mehrere hundert GB Traffic am Tag verursacht. Sowas ist denke ich auch bei YaCy machbar. Dann wird halt ein grosser, schneller DB Server finanziert.
Das ganze Netz profitiert massivst von solchen Knoten.

Einfach mal so als Ansatz :)

(zB wäre es auch super, wenn man Datenbanken in Teilstücke fragmentieren könnte, handliche 10 MB Teilstücke, die dann andere einbinden könnnen. So kann ein Crawl Sprint Mehrere GB Daten erzeugen, und auf 100 kleine Knoten (zB solche NAS) speichern. Die NAS reichen das an lokale Knoten, die die 10 MB DBs einbinden können)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon liebel-lab » Mi Dez 17, 2008 8:39 am

ok die ideen sprudeln :-)
und jetzut konkret: Was brauchst du? willst du testen? was willst du uebernehmen? bandbreite, platz, rechner haben wir...
spezielle hardware...warum nicht....also zutaten sind da...jetzt muss nur noch "gekocht" werden :-)

wann gehts los? :-)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Kurzzeit Crawlen

Beitragvon lisema » Mi Dez 17, 2008 1:17 pm

Bei mir leider frühestens im März.

Bis dahin muss/soll noch was für Android (das google Phone) fertig werden, Prüfungen geschrieben und einige weitere zeitaufwändige Sachen abgearbeitet werden.

Ich versuch hier mal ein Proigrammierteam zu organisieren, vielleicht kann ich ein paar begeistern.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon Huppi » Mi Dez 17, 2008 1:19 pm

Ich habe so im Kopf, daß wir schon jetzt Storage-Peers in der Konfigurationsdatei setzen können, sodaß alle Inhalte sofort auf einem anderen Peer gespeichert werden können.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Kurzzeit Crawlen

Beitragvon Huppi » Mi Dez 17, 2008 1:21 pm

Was die "Drohnen" auch leisten können, ist regelmäßig frische Crawl-Startpunkte zu liefern.

Was mir nicht gefallen würde sind DoS-Drohnen ;-)
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Kurzzeit Crawlen

Beitragvon lisema » Mi Dez 17, 2008 1:23 pm

super wo ist die Einstellung?
Wie performant ist das? Hat da jemand Erfahrungen?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Kurzzeit Crawlen

Beitragvon lisema » Mi Dez 17, 2008 1:36 pm

Huppi hat geschrieben:Was die "Drohnen" auch leisten können, ist regelmäßig frische Crawl-Startpunkte zu liefern.

Was mir nicht gefallen würde sind DoS-Drohnen ;-)


Definitiv. Ich halte die Drohnen auch besonders geeignet für recrawls. Die kann man "einfacher" Steuern, weil die Struktur bekannt ist. Vor allem könnte man dort die Drohnen auf 1ppm beschränken pro Domain. Genug Recrawl
Domains sollte es ja geben.

Deshalb muss ein intelligenter Master her. Man stelle sich mal vor, dass 100 Drohnen beschliessen, Heise neu zu indexieren. Kein Problem, dann verlinkt Heise auf etwas und ouch... periodisch geheist werden ist sicher nicht witzig (und teuer wenn man für Datentransfer zahlt)

Ein weiters Einsatzgebiet ist die Indexierung grosser Dokumente. Als Vorschlag: Leistungsklassen der Drohnen. Dann kriegen halt die gut angebundenen Drohnen die 20 MB ppts zum Indexieren (Gross, wenig Inhalt), während der ISDN Nutzer 20 KByte Textseiten macht (gut komprimierbar, viele Seiten, viel Arbeit). Und andere Besonders Leistungsfähige Drohnen "fressen" sich durch sowas wie Projekt Gutenberg durch (viel Text ... sehr viel Text)

Ich hatte auch im PN eine Möglichkeit zur Wiki Indexierung angesprochen, zB wäre es möglich ein lokales MediaWiki aufzusetzen und im LAN (oder durch einen Proxy) die DNS umzubiegen. Dann könnte man mit vielen Drohnen in einem kurzen Sprint Wikipedia Indexieren zum Zeitpunkt XY.
Danach fragt man bei anderen grossen Wikis nach, ob sie so indexiert werden wollen. DB Dump reinladen, den Schwarm draufhetzen. Dann hat Wikipedia kein Problem mit 1000en YaCy crawlern und andere Wikis auch nicht (vor kurzem durfte ich ein Wiki Mirrorn ... 3 sec Delay im WGet, Humanizer ... 1 1/2 Wochen :( )

Das macht weder mir noch dem Wiki Betreiber Spass.

Einfach so zum Spinnen :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron