Speicherplatz für YaCy begrenzen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Speicherplatz für YaCy begrenzen

Beitragvon Gast » Mo Aug 10, 2009 9:13 am

Im Wiki ist die Aussage zu finden das Speicherplatz heutzutage nicht mehr das Problem darstellt und es keine Möglichkeit gibt hier YaCy sinnvoll zu beschränken. Wird der Plattenplatz knapp scheint das deaktivieren von DHT die Option zu sein. DHT abschalten bedeutet nach meinem Wissen die Teilnahme am Cluster wird damit relativ sinnfrei. Also kann ich mir mit begrenzten Ressourcen die Teilnahme gleich schenken.

Ich möchte das gern hinterfragen. Ich habe div. Rechenleistung und Bandbreite übrig, jedoch nicht den Plattenplatz. Ich würde daher YaCy gern als "nur Crawler" einsetzen der die Ergebnisse irgendwo hin liefert ohne lokal viel zu speichern. Ist sowas möglich?

Wie kann man die nötigen Plattenplatz für YaCy sinnvoll beschränken? Mal so als Größenordnung das YaCy max. 2-5 GB Platte nutzen darf.

Eine (sicherlich nicht gewollte) Option für mich wäre per Cron regelmäßig den Plattenplatz zu prüfen und ggf. wahllos im DATA Verzeichnis große Broken zu löschen (die sich dank DHT wieder auffüllen würden, was nur unnütze Netzlast erzeugt)
Gast
 

Re: Speicherplatz für YaCy begrenzen

Beitragvon Seitenreiter » Mo Aug 10, 2009 4:14 pm

Ja ebend dass ist das Problem, es müssten Seiten gelöscht werden und das will keiner. Ist ja auch schwer zu entscheiden was weg darf und das soll dann auch noch performant passieren :D

Ich fänds ja gut wenn man die Seiten irgendwie an andere transferieren könnte oder sowas. Also richtig große dedicated Server dürfen verkünden dass sie 250GB frei haben und kleinere Crawlen entlasten sich indem sie alte Daten zu denen verschieben.
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon Nighthawk » Mo Aug 10, 2009 5:08 pm

Seitenreiter hat geschrieben:... Ich fänds ja gut wenn man die Seiten irgendwie an andere transferieren könnte oder sowas. Also richtig große dedicated Server dürfen verkünden dass sie 250GB frei haben und kleinere Crawlen entlasten sich indem sie alte Daten zu denen verschieben.


Die Diskussionen hatten wir bereits.

Was ist wenn die "fetten" Peer nicht online sind bzw. "abrauchen"?

Und zum Anderen widerspricht das einer verteilten Suchmaschine, da Daten zentral vorgehalten werden.
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: Speicherplatz für YaCy begrenzen

Beitragvon Seitenreiter » Mo Aug 10, 2009 5:19 pm

Richtig aber das wäre die einzige Altenative die mir zum löschen einfällt :-/
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon whitecloud » Di Aug 11, 2009 6:17 am

also ich habe das Problem auch. Nach einem halben Jahr und inzwischen 55Mio Links in einem kleinen Rechner der eigentlich nur als Wohnzimmer DVD / MP3 Zuspieler gedacht ist war Ende. Da es keine vernünftige Lösung gab (auch heute nicht gibt?) habe ich mich entschlossen den Index komplett zu verwerfen und neu anzufangen. Durch DHT und die damit aufgebaute Redundanz ist sicher ein guter Teil meines damaligen Index auf anderen Peers verfügbar, das war jedenfalls mein Trost.

Nach nun wieder 6 Wochen bin ich erneut bei ca. 13 Mio Links, so wie es aussieht wird dann Weihnachten der nächste Neubeginn fällig. Das ist schade, aber mit YaCy kann man im Moment eben viel schneller eine Riesenmenge Daten einsammeln, als den daraus entstandenen Index pflegen.

Ach ja, perverse Konsequenz für mich ist, dass ich so wenig wie möglich Sachen indexiere :(
whitecloud
 
Beiträge: 38
Registriert: Mi Nov 05, 2008 4:24 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon dulcedo » Di Aug 11, 2009 7:05 am

Ich habe mir zu dem Thema in letzter Zeit auch nochmal Gedanken gemacht da ja zeitnah keine Lösung in Aussicht:

Das Dilemma ist wie geschrieben dass ein Netz entweder viel crawlt dann aber alle beteiligten Peers leistungsfähig sein müssen, oder aber es spezialisiert sich auf ein kleines Gebiet. Das gesamte Netz nicht nur der einzelne Peer, diese Netze kann man auch über Mitgliedslisten in sich abschliessen. Konsequenz wäre dann ein freeworld in das man sich mit viel freien Res einklinken kann und mehrere kleine Netzwerke für kleinere spezialisierte Peers.

Was dann für eine umfassende Suche noch fehlt ist ein Interface das mehr als einen Peer abfragen kann, gleichzeitig oder wechselnd. Darüber mache ich mir grade Gedanken, auch im Blick auf ständige Verfügbarkeit einer Portalsuche. Ansatz ist bisher über PHP oder Javascript auf dem suchenden Server/Client (nicht peer), dort verschiedene Peers abfragen und den ersten gewünschten und schnell erreichbaren auswählen und abfragen. Das funktioniert so auch schon, recht einfach umzusetzen.

Weitere Ideen in dieser Richtung?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speicherplatz für YaCy begrenzen

Beitragvon Gast » Di Aug 11, 2009 7:36 am

Ich habe jetzt auf einem frisch aufgesetztem YaCy nach ~24h und recht ungebremsten Crawlen einen Traffic von ~50GB und das YaCy Verzeichnis ist um ~13 GB gewachsen. Bei aktuellem Plattenplatz und Geschwindigkeit ist also in 2 Tagen Schluss. Und dann? Dann idled das Peer vor sich hin bis mal mal jemand was sucht? Und dabei habe ich in den zu crawlenden Seiten nichtmal an der Oberfläche gegratzt.

Sicherlich kommt jedes Peer mal an sein (Platten-) Ende, aber sollten sich die Ressourcen vernünftig beschränken lassen wäre das für den ein oder anderen vielleicht eine Option YaCy auszuprobieren. Aktuell klingt es für mich so: "Na wenn du keine 100GB Plattenplatz übrig hats, brauchst eigentlich gar nicht erst anfangen".

Also vom Gedankenansatz haben 100 Peers zu je 10 GB mehr Charme als ein großer mit 1 TB. ;)
Gast
 

Re: Speicherplatz für YaCy begrenzen

Beitragvon Seitenreiter » Di Aug 11, 2009 7:58 am

Ja das stimmt schon was du sagst nur ist das ebend auch ein ziemlich gravierender Designkonflikt. Ich fänd es ja schon gut wenn man sich die URLs irgendwie merken könnte damit wenigstens die Einsprungstellen nicht verloren gehen...
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon dulcedo » Di Aug 11, 2009 10:28 am

Das Problem ist dein Anstatz: unbegrenztes Crawlen, das geht nicht mit unseren Ressourcen. Also muss man die Breite eingrenzen, nicht unbedingt die Tiefe. Automatisch geht das noch nicht, wäre aber problemlos umzusetzten da der Crawler bald völlig unabhänig sein wird. Speichern muss man die Daten aber trotzdem und möglichst gut verteilt. Dazu braucht man dann sehr viele Peers oder weniger aber grosse Peers, Google hat beides, können wir nicht, ich behaupte das kann inzwischen niemand mehr.
Wir können nur noch Teilbereiche abdecken, dazu muss der Crawler alleine Bereiche abgrenzen können, meiner Meinung nach der beste Ansatz. Dazu gibt auch schon Umsetzungen: Man kann YaCy benutzen um das eigene Surfverhalten beobachten zu lassen, und demensprechend crawlen. Wenn das ausgebaut wird verspreche ich mir viel davon.
Oder die Datenbank muss semantisch aussortieren, die optimale Lösung, traut sich das jemand zu? Das reine Aufräumen des Datenmülls ist dagen eher trivial.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speicherplatz für YaCy begrenzen

Beitragvon Seitenreiter » Di Aug 11, 2009 11:31 am

Hmm naja nur beim semantischen Sortieren was willste da wegfegen? Weil das Surfverhalten eines Nutzers ist ja breit gestreut, das fängt bei den Recherchen für die wissenschaftliche Arbeit an und geht bis hin zu leicht anrüchigen Inhalten... . Und nur die stark verlinkten Webseiten weghauen fänd ich schade denn so gehen Geheimtipps verloren. Stark verlinkt sind ja dann auch social bookmark dienste etc. obwohl die für uns ja keinen Unmittelbaren Zuwachs im Sinne von mehr Inhalten bieten.
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon Nighthawk » Di Aug 11, 2009 4:21 pm

Seitenreiter hat geschrieben:Hmm naja nur beim semantischen Sortieren was willste da wegfegen? Weil das Surfverhalten eines Nutzers ist ja breit gestreut, das fängt bei den Recherchen für die wissenschaftliche Arbeit an und geht bis hin zu leicht anrüchigen Inhalten... . Und nur die stark verlinkten Webseiten weghauen fänd ich schade denn so gehen Geheimtipps verloren. Stark verlinkt sind ja dann auch social bookmark dienste etc. obwohl die für uns ja keinen Unmittelbaren Zuwachs im Sinne von mehr Inhalten bieten.


... Und dafür gibt es bereits im Ansatz spezialisierte mit eigenen Clustern. Science-Net z. B.
Und für einzelne Themenbereiche kann man auch eigene Netze und Cluster aufsetzen. Diese sammeln dann Seiten für ihre speziellen Themen und stellen gegebenen Falls ihre Ergebnisse dem Freeworld-Netz zur Verfügung.
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: Speicherplatz für YaCy begrenzen

Beitragvon whitecloud » Di Aug 11, 2009 6:38 pm

Bevor wir die semantische Analyse des Surfverhaltens angehen, wie wäre es denn mit etwas viel simplerem? Sagen wir mal man könnte YaCy die maximale Größe des Index in Mio RWI oder GB Indexgröße angeben und bei erreichen des Limits würde YaCy einfach die ältesten Einträge verwerfen. Dabei müsste man sich nur Gedanken um die Validität von RWI und URL Datenbasis machen, ich behaupte mal, dass die Inkonsistenzen die sich da im Verlauf der Zeit ergeben auch eine Menge Platz verschwenden.

Auch eine performante Anwendung der Blacklists auf den gesamten Index wäre hilfreich. Ich habe auf meinem 50 Mio RWI Index ein Cleanup nur der RWI laufen lassen (ohne URL Bereinigung) und der ist nach 5 Tagen noch nicht durch gewesen...

... Ansonsten bleibt der Dreh- und Angelpunkt sicher die Anzahl der Peers. Also los Leute, neue Peers werben - jeder 2!


:mrgreen:
whitecloud
 
Beiträge: 38
Registriert: Mi Nov 05, 2008 4:24 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon dulcedo » Di Aug 11, 2009 6:47 pm

Um die Breite abzudecken gibt es Google und andere, wenn ich sie brauche nutze ich die. Selbstredend baue ich auch entsprechende Interfaces die beides Integrieren, Google ist ja nichts schlechtes! Es wird nur schlecht mit meinen Daten umgegangen also vertraue ich die nur YaCy an.
Wenn meine Suchmaschine mich aber kennt, erst dann kann sie auch genauer wissen was ich suche. YaCY kann das ohne dass ich Kopfschmerzen bekomme wenn es mir bei wirklich allem zusieht, wird mir das zu unheimlich lösche ich die Daten. Also habe ich meinen Komfort und mit anderen Suchmaschinen hole ich mir das was YaCy nicht findet. Ab dann allerdings schon.
Ein Mensch muss nicht Lesen lernen um zu verstehen oder sogar zu lesen, das ist nur beim Schreiben so.
Einen Maschine muss das auch nicht, sie muss nur zusehen und gutes Gedächtnis haben.

Hat sich passend überschnitten ;-)
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speicherplatz für YaCy begrenzen

Beitragvon Seitenreiter » Di Aug 11, 2009 7:48 pm

Um Leute anwerben mache ich mir nicht die Sorgen, das geht fix. Nur pardoin der Zustand von YaCy ist ATM wie ich finde wenig massentauglich.
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm

Re: Speicherplatz für YaCy begrenzen

Beitragvon dulcedo » Di Aug 11, 2009 10:47 pm

Hier ein 0.90 peer der auf einem Arbeitsplatz mitläuft, 500MB hat er zugewiesen, unter Windows. Das müsste zu entbehren sein, 40GB schätze ich müssten auch genügen (momentan 16GB, 1,3mio URLs). Da nur der Betreiber Daten hinzufügt die volle Kontrolle über die Res.
Er findet alles was der Betreiber gerne persönlich indexiert hat, speichert alle seine persönlichen Daten lässt sich von freeworld aber lediglich durchsuchen. Dass er dann selbst auch nur die persönlichen Daten findet stört nicht, ich kann ja auch woanders suchen, nur dann nicht mit dem Komfort oder ich gebe persönliches preis.
Wer seine Daten verteilen möchte, das Persönliche bleibt dabei auf der eigenen Platte, der muss natürlich auch Daten akzeptieren, wie soll das sonst funktionieren.

@dev: Die Meldung auf der Statusseite ist falsch, globale Suche geht nicht bei DHTin-no.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speicherplatz für YaCy begrenzen

Beitragvon bluumi » Mo Aug 17, 2009 11:58 am

Wenn ich obiges lese, kriege ich (fast) den Verdacht, dass grosse Peers nicht übermässig erwünscht sind, oder keinen grossen Zeck erfüllen. Oder habe ich mich da nun komplett verlesen in den Posts um kleine Peers.
Meine Zwei Peers haben nun zusammen 200 Mio URL, 25 Mio RWI (dank windows zählung) und je 6.5 Gbyte RAM und 300Gbyte Hdd zugeteilt. Jedoch leiden diese oft unter "arbeitslosigkeit".
So wie ich das früher verstanden habe, bekommen die Peers und somit auch meine grossen, von den kleinen Teile der Daten ab und somit währen diese zwei doch sinnvoll. Grosse Peers denke ich haben auch den Sinn.
Ich hatte 4 Peers im Betrieb, aber "mehr Peers" ist in meinen Augen kein Vorteil, wenn diese unter "derselben Person" laufen. Ob ich nun 4 Peers laufen lasse oder 2... lieber zwei (oder ein grosser) als auf 4 Stk. Dupes zu sammeln, was ja auf nur einem weniger passiert.

Jedoch muss auch ich zugeben, dass ich meinen @Home Peer nach nur wenigen Monaten abgestellt habe, da damals die Hdd Zugriffe und der RAM missbrauch mein normales Arbeiten blockierten. Inzwischen könnte ich zwar wieder beginnen, jedoch sitzt der "Schock" der HW Belastung noch tief genug [lach].
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Speicherplatz für YaCy begrenzen

Beitragvon dulcedo » Mo Aug 17, 2009 5:51 pm

Nein, so habe ich das natürlich nicht gemeint, das war die Antwort auf die Aussage YaCy wäre momentan nicht benutztbar weil zuviel Res. verbraucht werden. Man kann diese verbrauchen und braucht sie auch wenn man innerhalb eines offenen Netzes wie freeworld per DHT eingeklinkt ist, man braucht sie aber nicht in jedem Fall. Dafür das Beispiel mit den kleinen Peers die man auch problemlos im Hintergrund betreiben kann. Beides gleichzeitig geht im Moment nicht, wie du ja auch sagst.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Speicherplatz für YaCy begrenzen

Beitragvon bluumi » Mo Aug 17, 2009 9:51 pm

ich dachte da nicht nur an Deine Antworten :) sondern auch an etwas wie:
Nighthawk hat geschrieben:Was ist wenn die "fetten" Peer nicht online sind bzw. "abrauchen"?
Und zum Anderen widerspricht das einer verteilten Suchmaschine, da Daten zentral vorgehalten werden.

Es geht ja nicht um EINEN zentralen Server, sondern man "könnte" an 5-10 Standorten "super" fette betreiben, denn pardon, aber was kostet eine 8GByte RAM mit 1 TB Platten Kiste.
Auf die Weise hätte man die Daten etwas dezentralisiert und könnte noch immer "viele kleine" Peers nutzen die immer wieder mal von wo anders "vorne" beginnen.

Aber es ist klar, wenn ich für meine Kisten wüsste was ich indexen soll, würde da wohl der Plattenplatz schneller schwinden, so machen diese halt mehr auf DHT "parking".
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Speicherplatz für YaCy begrenzen

Beitragvon Seitenreiter » Di Aug 18, 2009 6:04 pm

Naja durch mehr Daten bei mehr Resourcen wächst die Gefahr von Sybil Attacken oder?
Seitenreiter
 
Beiträge: 120
Registriert: Di Jul 28, 2009 2:45 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste