Index Server zum Übertragen

Ereignisse, Vorschläge und Aktionen

Index Server zum Übertragen

Beitragvon lisema » So Jan 04, 2009 2:15 pm

Moin,

Ich probiere momentan sehr viel rum und komme öfters auf das gleiche Problem, dass ich wieder mit einem "jungfräulichen" YaCy starten will, um bestimmte Dinge zu probieren. Nun fände ich das Index löschen schaden und würde gerne den Index jedesmal retten. Gibt es Personen, die bereit sind Indizes aufzunehmen, zu denen man gerne übertragen dürfe?

Wer bereit ist viel Index Kram zu empfangen sage bitte Bescheid, ich crawle für Testzwecke normalerweise tief auf Domains beschränkt, meistens Unis und andere große Seiten

Grüße
lisema
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon Orbiter » So Jan 04, 2009 2:40 pm

in Zukunft kann man das ohne Probleme importieren, indem man einfach ein 'segment' file auspackt und einstellt. Ich habe versucht meine Ideen dazu mal zu dokumentieren:
http://www.yacy-websuche.de/wiki/index.php/Dev:Segments
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Index Server zum Übertragen

Beitragvon lisema » So Jan 04, 2009 3:11 pm

Super. Sowas schwebte mir auch oft im Hinterkopf vor, allerdings wusste ich nicht, in wie weit das machbar ist, da ich auch zu wenig in der Datenbank stecke.

Ich hoffe die Import, Export Funktionen sind performant und mal sehen was dafür günstig an Hardware ist. Wenn man Streams nutzt und nur von IO abhängig wird, sind dafür die kleinen Haushalts-NAS Geräte super geeignet.

Ich bin gespannt drauf :)

EDIT: Was mich wundert ist, ob man nicht einen hohen Priorität CatchAll machen sollte, der quasi Arbeitsdatenbank ist. Solange die im RAM gehalten werden kann, dürfte das einen guten Geschwindigkeitsboost geben. Sobald sie zu gross wird, auf HD schreiben und eine neue starten. Im Hintergrund derweil die Arbeitsdatenbank in die anderen aufteilen/sortieren. So können viele Features, die ich ab und zu im Hinterkopf habe, umgesetzt werden.
Wenn also die feinen Prioritäten sowie die Merge/Split/Sort Funktionalitäten gegeben sind (angedacht sind) würde ich mich damit im März- Anfang April mit beschäftigen. Ob und wie Arbeitsdatenbanken sinnvoll sind wird sich dann zeigen :)
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon ribbon » So Jan 04, 2009 7:11 pm

ein segment "auspacken" ?? von dem Wiki Text habe ich nicht allzuviel verstanden, aber wenn man schon etwas entzippen muss, ist es schlecht. Man muss einen Pfad (z.B. auf einer anderen Festplatte oder einem FTP) öffnen können und dann den Pfad anklicken und dann sollte das Nicht-redundante importiert werden. Schaut Euch mal das offsystem.sf.net an, das speichert alles in 128 bit blöcken auch in zahlreichen Unterverzeichnissen. So ein Verzeichnis kann man mit einem Klick importieren, bereits vorhandene Blöcke werden nicht übernommen, der Rest wird importiert. Also keine Notwendigkeit das zu zippen. Oder müssen die 4 Elemente-Dateien eines Segements immer zusammen bleiben?
(Auch die Dateien manuell zu löschen anhand der Datumsangabe ist zu sehr auf Dateiebene. Ein Knopf mit "lösche 10 % der ältesten Dateien" wäre bequemer. Besser: vertreibe diese im DHT. Nix löschen !!)
Und wenn zippen notwendig bleibt, dann könnte man auch XORen nehmen und über das Offsystem einen OFF-Link für ein Bibliotheks-Segment erstellen, dann kann man mit einem OFF link das ganze KIT laden, retrieven (entxoren/entzippen) und in yacy laden. So hat jeder was von der Datenbank über einen einzigen OFF link. Auch kann man mehrere Datenbanken (off links) wiederum in einer einzigen URL abbilden. Dummerweise würde man dann die Datenbanken zweimal distribuieren, einmal als plain-hash und einmal gexored. Ideal wäre es natürlich, das der YACY DHT auch nur geXORte Blöcke in den DHT einstellt, so dass beides kompatibel wäre.. Daher wenn durch die Segmente sowieso eine neue Datenbankstruktur entsteht, die nicht kompatibel ist mit der jetzigen, dann bitte xoren zu 128 bit blöcken statt zippen?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Index Server zum Übertragen

Beitragvon Orbiter » So Jan 04, 2009 7:51 pm

ja, der erste Schritt ist ja der Entwurf der Datenstruktur. Der zweite oder ein späterer Schritt dann die Ergonomie für den Benutzer. Es geht hierbei auch darum das ganze sowohl für 'kleine' Peer-User möglich zu machen - dann ggf. mit einfachen Kommandos über das Webinterface - als auch eine Datenstruktur für eine High-Performance Umgebung mit Terabytedatebanken zu schaffen.

Wenn alles so klappt kann es für den Peer-Nutzer beispielsweise so aussehen, das er zu den Crawl-Profilen, wenn der zugehörige Crawl terminiert ist, einen Knopf bekommt, und mit einem Click dann sowas wie 'transfer crawl result to buddies' auslösen kann. Was auch immer 'buddies' dann sind, hierzu gibts ja auch immer noch die Crawl Groups/Cluster Diskussion, wo sich nochmal herausstellen wird wie man das machen kann.

Mir kommt es hier bei meinem Entwurf nur darauf an, das die Datenstrukturierung passt und eben Dinge ermöglicht nach denen gefragt wird.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Index Server zum Übertragen

Beitragvon ribbon » So Jan 04, 2009 10:56 pm

oki danke für die Zeilen. ich dachte nur, wenn yacy eine riesendatenbank ala google speichern muss und offsystem sich ebenso als datenspeicher versteht, wäre es möglich, das compatibel zu machen und die gehashten webseiten als XOR block 128 KB abzuspeichern. Dann könnte man ganze Datenbanken der Groupcluster mit einem OFF link downloaden und einbringen. Ja mehr noch, Yacy kann eigenständig im Web nach OFF-Urls suchen die als HTML link im web verlinkt sind und dann mittels des OFF DHTs oder falls dieselbe Struktur auch aus dem yacy DHT sofort laden... Eine URL und die gesamte Google Datenbank ist drin, dass ist Offsystem. Mir ging es lediglich um eine gemeinsame Storage Lösung, nicht um eine Formatierungsfrage (oder Anwendnungsfrage zuallererst). Die überlappenden Chunks (zwischen Seeder und Downloader) beim Filesharing sind grosse Storage-Möglichkeiten, wobei das OFFsystem es als sinnlose (weil geXORte) Blöcke speichert.
Diese Blöcke könnten ja auch Webseiten-Datenbanken enthalten. Charmant ist, dass yacy OFF Urls crawlt und diese dann auch re-storen kann. So wird eine weltweite Bibliothek daraus, die Library of Congress elektronischer Medien kann dann jeder laden und hosten ebenso wie die Urls von Webseiten der Datenbank "Kit". Elektonische Bibliotheken "stored" man im Offsystem. Warum sollte yacy eine zweite aufmachen? D.h. eine Daten-Einheit für yacy entspricht einem OFF link, damit man das schnell xoren kann, müsste ggf. jede Webseiten-Url als eine OFF url bzw deren blöcke umgemünzt werden.. bzw. auch grössere Cluster könnten gezippt=geXORed werden und dann distribuiert werden als OFF Block, den ein anderer yacy Node dann mit der passeden Url sucht, d.h. datentransfer dieser (wie immer auch grossen) chunks würde über eine OFF-url von yacy node zu yacy node gehen. ggf passt das ja von 128 bit.. wenn nicht.. war nur eine Gedankenspielerei.
Damit kann jemand der viel crawled, seine ganze datenbank ins offsystem laden (also auch den nodes des offsystems) und die Offurl des yacy-portionspackets an einen yacy node senden, der diese url dann wieder (wann er zeit dazu hat, zeitversetzt) laden kann.
So könnte man auch seinen Crawl Sonntags durchführen (Schneller download mit viel CPU), die Off-Blöcke der yacy-Datenbank in beide DHTs pusten ( schneller upload), die maschine ne Woche ausschalten und mit einer OFFurl die yacy-Datenbank ne Woche später wieder runterladen oder die Datenbank OFF-Url auch an andere yacy nodes senden, die sie wann immer laden, wann sie Bandbreite haben. mehrere off urls (http) kann man manuell auch in eine .ofd (Directory, txt) datei packen, z.B. den Heise crawl eines jeden Monats. Man lädt die 12 http-OFF-urls über die eine OFD-URL, und bekommt 12 Datenbanken. Die importiere ich in einen yacy node, der sortiert redundante urls aus, und man hat alle webseiten Urls up to date, mehr noch: man kann auch den HTcache ablegen und die updates zu einem bestimmten Zeitpunkt der physischen Webseite sich anschauen, das ist noch besser als archive.org. yacy wäre dann archive.org decentral. Daher ist Storage schon eine interessante Frage. Eigentlich braucht yacy keine Urls (im Sinne von Links) (und wenige Stichworte der Seite, ja noch nichtmals snippets) zu speichern, deren physischen Inhalt man remote auf dem live Webserver abruft, sondern yacy braucht nur urls (im Sinne von Index) zu den physischen Inhalten speichern. lol, sprich dadurch werden webinhalte dezentral, weil als Kopie in einer verteilten Datenbank. Url und physische Webseite gehören ja zu einem best. Zeitstamp zusammen, warum sollte man das nicht gleich mitspeichern statt nur Extrakte (wenige Stichworte, wenige Snippets). Aber auch die Urls als Links in einer yacy-Datenbank, diese Datenbank abrufbar mit einer Url zu machen und von jedem Punkt der Welt ladbar machen, enthebt beispielsweise KIT der Exclusivität. Jeder kann KIT´s Crawl-Leistung kopieren, sprich p2p laden. Eine Portal-Datenbank p2p runterzuladen ist mit OFFsystem möglich, yacy kann nur Urls anhand von Stichworten p2p runterladen. Das ist es, was man unter Cluster(-Datenbank) verstehen kann: eine url, die p2p über DHT ladbar ist und entpackt (entXORed) eine yacy-datenbank ist (urls mit oder ohne HTcache).
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Index Server zum Übertragen

Beitragvon lisema » Mo Jan 05, 2009 2:39 am

Ich hab mal die Posts von ribbon übersprungen, in diesem Zustand kann ich nicht zu viel lesen, werde das aber noch nachholen

Ich finde die Datenstrukturen super, vielleicht kann man auch noch ein paar nette Sachen später reinbringen, zB:

crawlen mit einer endlosen Tiefe für die Startdomain
crawlen mit einer Tiefe von 3 (zB um Quellen zu sichern) um die Domain drumherum

Nur notiert damit es nicht wegkommt.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon lisema » Mo Jan 05, 2009 3:20 am

Ich hab nur 1 1/2 Posts von ribbon gerade gelesen, okie ich bin betrunken, aber ich frage mich schon ob ich es annähernd verstanden habe.

es geht also darum, vereinfacht gesprochen, ein globales Dateisystem zu nutzen, sodass wir in dem Addressraum von diesem geziehlt die Daten ablegen, sodass das reproduzierbar ist.
Das ganze XOR System ist mir noch unklar, ich kenne es nur von Filesharing sodass man wenige Blöcke und vor allem egal welche, übertragen kann und so besser rekonstruieren kann. Dies ist bei der Datenhaltung kritisch (für den Transport aber super).

Mir stellt sich gerade die Frage, ob man so etwas sinnvoll abbilden kann. (und will).


Und zweite Runde nach nochmaligen Lesen, nun verstehe ich das OFFSystem als p2p Storage Lösung, in das man seinen Index lädt. Ich fürchte, das scheitert an dem mickrigen Upstream der meisten Leute. 128 Kbit sind knapp 1 GB pro Tag. Ich will nicht schwarzmalen, aber bei den meisten ADSL Verbindungen bricht der Upstream massiv ein, wegen schlechtem Traffic Shaping und da wird es irgendwann knapp.
Der Zweite Punkt ist, wenn ich die Datenbank wieder brauche, zieht man knapp 400 MB pro Stunde pro 1 Mbit downstream aus dem OFFsystem. Ich frage mich da, ob es (das OFFSystem) so performant ist und gut skaliert.

Es ist auf alle Fälle "nett". Ich weiss nur noch nicht ganz, was ich von dem OFFSystem halten soll und wo ich es einordne, geschweige denn, ob ich es richtig verstanden habe.


Unabhängig vom dem OFFsystem
Natürlich muss der Datenaustausch ohne Zutun des Nutzers erfolgen, egal wo es liegt. Die Daten sollten komprimiert sein. Beim entpacken (was JAVA natürlich macht) entsteht dann ein Stream von Kram, der dann schick aufgeteilt werden kann und weiterverarbeitet wird. (Vgl unter Linux die pipes)
Die Komprimierung spart insbesondere Übertragunszeit (auf Kosten von späterer Rechenzeit)

Was die Datenstruktur bringt ist aber zB dass man im Nachhinein Heise abspaltet. Das kann sein, weil man merkt, das 10 Grosse Webseiten einfach zu viel sind oder aber auch, weil es eine Vielbenötigte Ressource ist, und man einen schnellen 2. Server damit ins YaCy Netz bringen will. Genausogut kann man viele Sachen importieren, wenn ein grosser Knoten entsteht. Ich denke das ist eine gute Richtung
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon dulcedo » Mo Jan 05, 2009 5:10 am

Wunderbare Idee, das werde ich nun auch mal testen, vor allem eine Möglichkeit einen Peer zu "retten" der nun mit 20/10 mio an der 32-bit Grenze ist. (RAM für die JVM).

Die Migration von W32-Daten auf Linux ist nämlich alles andere als einfach da MS ja einen recht merkwürdigen Umgang mit Dateinamen pflegt.

Das nonplus-ultra wäre aber, wie schon geschrieben, eine Funktion bei der ich einen Peer auswähle (ähnlich Blacklist) und ihm die Daten online schicke, ein ACK natürlich vorrausgesetzt. Geht natürlich nicht oder nur eingeschränkt bei wirklich grossen Peers, aber mal 5GB sind ja übertragbar.

Zu W32: An der Stelle nochmal ein Kompliment an die Entwickler, sowas habe ich wirklich noch nicht gesehen, ich habe den Peer nun mit Absicht gegen den Anschlag laufen lassen um zu sehn was passiert wenn die 1,3 GB RAM vollgepuffert sind: Er meckert einmal kurz dann beim Neustart dass er die VM nicht starten kann, nach bischen Recherche auf 1,3GB begrenzt und sieheda: geht wieder, performant wie immer, nur wachsen darf er jetzt nicht mehr grossartig.
Da wäre es prima wenn eine Automatik greifen würde die DHT-in deaktiviert.

Jedenfalls noch nie so eine stabil-performante Anwendung gesehn die W32 wirklich an den Anschlag bringt.
Nächster Versuch ist nun mal 64-bit Vista (die wirklich schnellen Maschinen hier brauchen leider MS-Betriebssystem), mal sehn was da so alles für Stolpersteine warten.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Index Server zum Übertragen

Beitragvon Lotus » Mo Jan 05, 2009 12:07 pm

@dulcedo auf den 64 Bit Test bin ich gespannt. Ich kann bei meinem 32 Bit XP bis 1600MB zuweisen. Wenn du Ergebnisse hast, wäre eine Überlegung eines Maximalwertes für W32 (1000MB) gut für die Stabilität. Denn wer direkt mit Engagement einsteigt und 2000MB zuweist wird sicherlich nicht lange nach der Ursache suchen, sondern YaCy deinstallieren.
Was meinst du mit auf Anschlag bringen? Eine RAM-Option ist im Resource Observer schon angelegt, sehe ich aber als wenig sinnvoll, da wir Mem-Settings für die einzelnen Threads haben.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Index Server zum Übertragen

Beitragvon lisema » Mo Jan 05, 2009 1:59 pm

Ich habe auf den C2Ds die VMs mit 1,5 GB laufen lassen, ich meine da ist w32 installiert, schaue ich aber mal nach. Da liefen 3 Maschinen vor Weihnachten knapp 6 Stunden durch.

Auf den C2Q lief dagegen mit so viel RAM nichts, da ist W32 wegen treibern installiert. Sobald da W64 läuft können wir auch mal bis 6 GB RAM testen.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon dulcedo » Mo Jan 05, 2009 2:02 pm

Damit meinte ich dass ich davon ausgegangen bin dass von den nutzbaren 3GB schon bischen mehr als bei mir eben 1,3GB für die JVM übrigbleiben. Installiert ist ansonsten nichts was grossartig dauerhaft Speicher belegt:

-jvm:1.288.000kb
-ff: 70.000kb
-rest 120.000kb

Physikalisch verfügbaren Speicher hätte ich laut Anzeige noch 690.000kb, deswegen spar ich mir auch den Firefox nicht.

Das Problem ist eben wohl die Speicherfragmentierung, hier beschrieben: http://forum.yacy-websuche.de/viewtopic.php?f=5&t=783&p=5024&hilit=+create+virtual#p9569
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Index Server zum Übertragen

Beitragvon lisema » Mo Jan 05, 2009 2:07 pm

Ah okie danke. Also ist der Speicheraddressbereich Schuld. Ich schau mal was wir auf den c2ds haben.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon dulcedo » Mo Jan 05, 2009 2:17 pm

Zu schnell abgesendet ^^

Was mir dabei noch aufgefallen ist: ich hatte den Peer ca. 10 Tage unbeaufsichtigt laufen, mit ein paar kleineren dayly-recrawls.
Als dann wieder nachgesehen war die blaue Speicherkurve am Anschlag bei 1GB, mehr hatte ich auch nicht zugewiesen. Der letzte Crawl lief aber korrekt durch.
Danach neu gestartet, vorher Speicher auf 1,5GB erhöht und dann eben der Fehler mit "cannot load virtual machine". Runtergesetzt auf 1,3GB lief hoch, Speicher immer noch bei 1GB Minimalwert.
Jetzt nach 2 Tagen ist er wieder bei 800MB minimal, ohne dass sich Anzahl Worte/urls grossartig verändert hätte.
Anscheined wird da also aufgeräumt, in den Speichertabellen, bis er aber soweit ist wird in meinem Fall fast 20% mehr RAM benötigt.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Index Server zum Übertragen

Beitragvon Orbiter » Mo Jan 05, 2009 2:22 pm

'Aufräumen' gibt es schon immer in dem HTCACHE, seit einigen Wochen aber viel effizienter weil keine Einzeldateien mehr verwendet werden. Im neuen HTCACHE liegen BLOBs mit einem Timestamp. Das ist auch sowas wie ein Testfall für die neue Indexstruktur, da kommen dann die gleichen Dateitypen zum Einsatz. Wenn du nun ein Schrumpfen beobachtet hast, kann das eigentlich nur vom HTCACHE stammen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

OFFSystem

Beitragvon lisema » Mo Jan 05, 2009 2:26 pm

Okie ich habe mal auf offsystem.sf.net mal nachgelesen. Witziges System. Größtes Ziel ist dabei nicht die performance sondern das man Sachen legal tauschen kann. Das System wird, so wie ich es dort verstehe, nicht performant sein. In keinster Weise.

Da ist es sinnvoller andere Dinge zum Verteilen zu implementieren. Da spricht zB auch nichts gegen
"sciencenet" als file zum Download beim Kit
"NewsSites" Als Bittorrent
"Heise.de" Als Diff zu einer Basis, wobei die Basis wieder per Bittorrent Whatever übertragen wird.

Mit einem nicht ausgereiften Fileformat/System holt man sich mehr Probleme ins Haus als sie zu lösen.

Wenn nun die Datenbank in Segmente aufteilbar ist, so kann ich auch sehr effizient alte Urls recrawlen. Ich nehme meine 6 GB Datenbank, zerlege die in Domains oder Segmente sodass die Segmente beim Bearbeiten in RAM passen, und kann dann darin rumwuseln wie ich will. Habe ich nur 256 MB RAM für mein YaCy muss es halt ein kleines Segment sein, da kann ich aber schnell und gut drin rumwurschteln, solange es im RAM ist. Wird die Datenbank zu gross, hat man viel Swapping bzw IO auf die Platte. Das macht das ganze Langsam. Nun noch ein langsames FileSystem das verteilt ist dahinterzuklemmen löst nicht das lokale Problem, sondern schafft vermutlich noch ein globales Bottleneck.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon dulcedo » Mo Jan 05, 2009 2:32 pm

Gut zu hören dann kann ich die 64-bit noch ein bischen rausschieben, oder aber ich spiele gleich Hardy LTS auf, da muss ich aber halt erst alle Dateinamen wieder flott für Linux machen ^^

Wenn 64-Bit Vista als Testfall für einen sehr grossen Peer gelegen kommt kann ich auch gerne das nehmen, die Maschine ist sowieso frei.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Index Server zum Übertragen

Beitragvon Orbiter » Mo Jan 05, 2009 2:46 pm

lisema hat geschrieben:Wenn nun die Datenbank in Segmente aufteilbar ist

äh, das ist ein reiner Architekturentwurf, nicht etwas das existiert! Ich hoffe mal das es zum Linuxtag läuft, rudimentär vielleicht früher, oder mit allen Features wie im Wiki beschrieben erst später. Mir ist momentan erst mal wichtig das es einen massiven Schritt weg vom vielen IO gibt, aber in einem Kontext der super Performance ermöglicht, und gute Bearbeitungsmöglichkeiten. Ist aber alles nur Entwurf. Ich dachte mir, ich mache das jetzt mal so früh wie möglich transparent, dann können alle daran mitarbeiten, mitdenken u.s.w.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Index Server zum Übertragen

Beitragvon lisema » Mo Jan 05, 2009 2:55 pm

Orbiter hat geschrieben:
lisema hat geschrieben:Wenn nun die Datenbank in Segmente aufteilbar ist

äh, das ist ein reiner Architekturentwurf, nicht etwas das existiert! Ich hoffe mal das es zum Linuxtag läuft, rudimentär vielleicht früher, oder mit allen Features wie im Wiki beschrieben erst später. Mir ist momentan erst mal wichtig das es einen massiven Schritt weg vom vielen IO gibt, aber in einem Kontext der super Performance ermöglicht, und gute Bearbeitungsmöglichkeiten. Ist aber alles nur Entwurf. Ich dachte mir, ich mache das jetzt mal so früh wie möglich transparent, dann können alle daran mitarbeiten, mitdenken u.s.w.


Jo passt ja auch :)

Und das es bei den Ideen Überschneidungen gibt, merkt man ja. Vielleicht denke ich in eine andere Richtung als Orbiter und BlackFog wirft nachher etwas ein, was keiner bedacht hat. Aber alle brauchten/wollten die Segmente. Das das alles noch viel Arbeit braucht, ist leider klar.
Aber innerhalb eines grossen Konzeptes arbeitet es sich besser.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Index Server zum Übertragen

Beitragvon PCA42 » Mo Jan 05, 2009 4:08 pm

Ich bin über Weihnachten von einem DS3000 auf einen DS7000 (6GB RAM) bei Hetzner umgezogen. Das letzte Jahr hat sich finanziell gelohnt, da kann man auch mal was "spenden". Auf der Maschine läuft jetzt ein 64bit Ubuntu, Sun-JVM /64bit. Der RAM-Index benötigt derzeit 1100 MB (36 Mio URL, 12,6 Mio RWI). Auf dem Peer ist alles an (DHT-In+Out, Remote-Crawl). Hab normal 3500 MB VM. Aber auch der kurze Testbetrieb gerade mit 4500 MB funktioniert.
Was Rekordeverdächtig ist, ist mein DHT-Out. Bin da auch stolz drauf. Beim verteilen holt mich keiner ein. 8-)
Peer: http://www.yacy-suche.de

Btw: Hab gerade gesehen, der Wer für gesendete Wörter ist übergelaufen, ändert mal bitte das Format! Jetzt hab ich Minus :cry:
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Index Server zum Übertragen

Beitragvon ribbon » Mo Jan 05, 2009 8:14 pm

ja, offsystem als verteilte datenbank zu nutzen war nur eine gedankenspielerei. man müsste für jedes Keyword ja wieder umwandeln, entxoren oder entzippen, daher macht das auf nutungsebene keinen sinn, eine Datenbank packen, zerstückeln und hochladen kann man anders auch effizienter. zumindest für die urls, wenn man die Storage lösung aber für den HT cache, also ganze webseiten, sucht, ist man wieder bei Storage fragen. ok lassen wir das. Vielleicht kann man es so resümieren, wäre klasse, wenn man von aussen im Web den peer kontakten könnte, und dort eine URL findet, die Datenbank zu laden bzw intern über DHT. So kann man andere peers anzapfen, und deren Datenbank in den eigenen DHT prioritär laden.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Index Server zum Übertragen

Beitragvon Orbiter » Di Mär 17, 2009 11:32 pm

Orbiter hat geschrieben:in Zukunft kann man das ohne Probleme importieren, indem man einfach ein 'segment' file auspackt und einstellt. Ich habe versucht meine Ideen dazu mal zu dokumentieren:
http://www.yacy-websuche.de/wiki/index.php/Dev:Segments

Diese Datenstruktur ist jetzt ein wenig näher gerückt: in SVN 5724 gibt es nun die IndexCell Datenstruktur, die im o.g. Wiki-Eintrag genannt wurde. Die Vorteile werden weiter unten im Wiki-Dokument beschrieben.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Index Server zum Übertragen

Beitragvon liebel-lab » Do Mär 19, 2009 8:48 am

sorry, hab das erst jetzt gelesen. Wir helfen in sachen hardware/index/peers etc natuerlich immer gerne. wir haben zwar keine überfluss an manpower,
wenn aber jemand platten etc zum index puffern usw , experimentieren braucht geben wir unser bestes...derzeit haben wir neben den 44 sciencenenet rechner ca 10-12 im freeworld...
einige davon mir odentlich platten/speicher...
wenn es sinnvoll ist ..kann man die als dauerpuffer/dump/ etc auslegen...

sorry...nicht schuechtern sein einfach direkt eine mail an mich oder michael der das dann sicherlich weiterleitet...
(komme leider nicht immer dazu das forum zu lesen....)

happy crawling...

urban
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast