Vorsätze für 2008?

Ereignisse, Vorschläge und Aktionen

Vorsätze für 2008?

Beitragvon daburna » Do Dez 27, 2007 11:17 pm

Ich hab mir gerade mal die Statistik auf yacystats.de angesehen und möchte daraus messbare Ziele ableiten. Vor einem Jahr hatten wir um die 200 Millionen URLs, heute sind es um die 400 Millionen (Verdopplung). Auch bei den Words hat sich die Anzahl verdoppelt. Die Peerzahl ist dagegen (mit Schwankungen nach oben und unten) ziemlich konstant geblieben. Mit 150 Peers (also um die 50 mehr) sollten wir 2008 an die Milliardengrenze bei Links sowie bei Words kommen können. Ich finde sowas sollte unser Vorsatz (der Community - nicht der Entwickler) sein!
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Vorsätze für 2008?

Beitragvon Low012 » Fr Dez 28, 2007 1:56 am

Die Millardengrenze zu knacken wäre schon eine coole Sache, da könnte man ja fast überlegen, eine Pressemitteilung zu verschicken. ;) Problematisch könnte sein, dass einige Peers derzeit schon am Limit laufen, was den zur Verfügung stehenden Hauptspeicher betrifft. Ohne einen Zuwachs an Peers (den du ja aber auch voraussetzt), wird das Wachstum (bei unverändertem YaCy) irgendwann ein Ende haben. Dass einzelne Personen mehrere Peers betreiben, kommt zwar vor, wird aber sicher nicht den Normalfall darstellen. Wir müssten also überlegen, was es für Möglichkeiten gibt, mehr Leute dazu zu motivieren, Peers aufzusetzen und dauerhaft laufen zu lassen.

Ich bin grad am Überlegen, wie ich es am sinnvollsten hinbekommen könnte, noch 1 - 3 Peers laufen zulassen, ohne ein Vermögen für Strom zahlen zu müssen und am Ende ganz allein für die globale Erwärmung verantwortlich zu sein... Einen leistungsfähigen Rechner hat wahrscheinlich einen höheren WAF als mehrere kleine Rechner, aber mehrere kleine sind möglicherweise sparsamer als ein Bolide.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Vorsätze für 2008?

Beitragvon daburna » Fr Dez 28, 2007 8:27 am

Ja, die Probleme seh ich auch und habe das daher auch als Aufgabe für die Community, getrennt von der technischen Entwicklung, vorgeschlagen. Das Ziel erscheint zur Zeit hoch, aber doch erreichbar. Der Fokus sollte wirklich auf der Gewinnung neuer Peers liegen. Die psychologische Wirkung ist übrigens enorm, wer möchte nicht derjenige sein, der den 1.000.000.000sten Link zu dem Netzwerk beiträgt?!
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Vorsätze für 2008?

Beitragvon Vega » Fr Dez 28, 2007 11:37 am

2008 wird ein spannendes Jahr werden, zu den Vorsätzen und zu Yacy:

Um eine höhere Akzeptanz von Yacy zu erreichen wäre meiner Meinung nach eine Suche nach Umlauten wichtig,
das ist momentan ein großes Manko. Zu den Peers - je mehr desto besser, auch die Politik die momentan von Schäuble und Konsorten gemacht wird spielt/spricht für YACY - hat jemand Kontakt zum CCC ? - Das Lieblingskind der ct' sind wir ja schon, da gibt es ja mindestens 1x Jährlich einen großen Bericht mit Screenshot, Link etc 8-) .

1 Fette Maschine ist besser als 4 Kleine, die aktuellen CPU's sind recht sparsam, DDR-II Ram ist billig, 4GB für unter 100 €, rüste da mal eine alte Kiste mit SD-Ram oder so auf, das lohnt nicht. Wenn Du dann auf einer neuen Kiste mit Dual-Core CPU 2 oder 3 Yacy Instanzen betreibst kommst Du auf einen recht günstigen Verbrauch pro (virtuellen) Peer.
Schaut mal in das Profil von "hallar1" - ist ein schönes Beispiel dafür.


Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Vorsätze für 2008?

Beitragvon daburna » Fr Dez 28, 2007 1:11 pm

Ich würde diesen ganzen technischen Sachen wie Suche nach Umlauten einfach als Vosatz für die Entwicklung sehen und auslagern. Diese Aufgaben müssen von den Entwicklern erledigt werden, wir konzentrieren uns dafür auf Peer- und Linkwachstum.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Vorsätze für 2008?

Beitragvon PCA42 » So Dez 30, 2007 7:53 pm

Bevor ich hier den Spielverderber gebe, biete ich als guten Vorsatz für das nächste Jahr weiterhin das zuverlässige Hosten einer größtmöglichen Anzahl an Daten (hallar1-8). Mal schauen, ob ich meine Resourcen noch ausbauen kann, derzeit ist bei mir leider die Internet-Verbindung am Ende Ihrer Leistungsfähigkeit (DSL 2000).

Dann möchte ich aber mal auf die Linkzahlen zurückkommen: es sieht super aus, wenn auf yacystats Werte von mehreren hundert Millionen auftauchen. Aber man muss sich auch mal verdeutlichen, wie diese Zahlen zustande kommen. Und diese riesige Linkzahl kommt nur zustande, weil jeder Peer die benötigten URLs zu den Wörtern mit vorhält. Ich schätze mal, eine realistische Menge an Links wäre bei maximal 50 Millionen. Die riesigen Wortzahlen kommen zustande, weil viele Wörter doppelt liegen durch zu langsames verteilen der geparsten Daten.

Deshalb ist für mich die einzige Kenngröße für das Netz leider im Augenblick die Anzahl der laufenden Peers und aktiven Teilnehmer. Und da hoffe ich auf stetigen Zuwachs, denn dieses Projekt hat es in meinen Augen einfach verdient.

@Daburna: Auf Yacystats waren auch mal die Transfer-Werte (DHT-In+Out) mit aufgeführt - so stand es jedenfalls im Changelog -, können die vielleicht wieder sichtbar werden? Denn die zeigen in meinen Augen die wirklich Leistungsfähigkeit des Netzes. So läßt sich dann auch nachvollziehen, wie gut die geparsten Daten verteilt werden.
PCA42
 

Re: Vorsätze für 2008?

Beitragvon thq » So Dez 30, 2007 8:14 pm

PCA42 hat geschrieben:Bevor ich hier den Spielverderber gebe, biete ich als guten Vorsatz für das nächste Jahr weiterhin das zuverlässige Hosten einer größtmöglichen Anzahl an Daten (hallar1-8). Mal schauen, ob ich meine Resourcen noch ausbauen kann, derzeit ist bei mir leider die Internet-Verbindung am Ende Ihrer Leistungsfähigkeit (DSL 2000).

Dann möchte ich aber mal auf die Linkzahlen zurückkommen: es sieht super aus, wenn auf yacystats Werte von mehreren hundert Millionen auftauchen. Aber man muss sich auch mal verdeutlichen, wie diese Zahlen zustande kommen. Und diese riesige Linkzahl kommt nur zustande, weil jeder Peer die benötigten URLs zu den Wörtern mit vorhält. Ich schätze mal, eine realistische Menge an Links wäre bei maximal 50 Millionen. Die riesigen Wortzahlen kommen zustande, weil viele Wörter doppelt liegen durch zu langsames verteilen der geparsten Daten.
Schön, jetzt brauche ich das nicht mehr schreiben ;)

Vielleicht sollten wir Crawlen und DHT mehr miteinander verknüpfen, heißt der Peer Crawl erst weiter wenn er die zuvor gecrawlten Seiten auch verteilt hat. So wie es jetzt ist belasten diese "doppelten" Daten die Peers nur unnötig.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Vorsätze für 2008?

Beitragvon daburna » So Dez 30, 2007 9:58 pm

PCA42 hat geschrieben:@Daburna: Auf Yacystats waren auch mal die Transfer-Werte (DHT-In+Out) mit aufgeführt - so stand es jedenfalls im Changelog -, können die vielleicht wieder sichtbar werden? Denn die zeigen in meinen Augen die wirklich Leistungsfähigkeit des Netzes. So läßt sich dann auch nachvollziehen, wie gut die geparsten Daten verteilt werden.

Das reiche ich hiermit mal an den Betreiber (lulabad) weiter.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Vorsätze für 2008?

Beitragvon PCA42 » So Dez 30, 2007 10:01 pm

daburna hat geschrieben:Das reiche ich hiermit mal an den Betreiber (lulabad) weiter.


Ups, da war ich wohl etwas im Statistik-Rausch. ;)
PCA42
 

Re: Vorsätze für 2008?

Beitragvon lulabad » So Dez 30, 2007 10:48 pm

PCA42 hat geschrieben:@Daburna: Auf Yacystats waren auch mal die Transfer-Werte (DHT-In+Out) mit aufgeführt - so stand es jedenfalls im Changelog -, können die vielleicht wieder sichtbar werden? Denn die zeigen in meinen Augen die wirklich Leistungsfähigkeit des Netzes. So läßt sich dann auch nachvollziehen, wie gut die geparsten Daten verteilt werden.

Äh, nö du. Das hasst du Falsch verstanden. Es gab vorher einen Plot, der angezeigt hatte wieviele Peers DHT und Index receive aktiviert hatten oder nicht.
daburna hat geschrieben:Das reiche ich hiermit mal an den Betreiber (lulabad) weiter.

Technisch schwierig, da nicht erfasst wird woher ein Link / Wort kommt. Ausserdem glaube ich dass dieser Wert nicht wirlich was bringt, da ein neu aufgesetzter Peer bereits nach wenigen Minuten anfängt die vorher empfangenen Wörter schon wieder weiter zu verteilen. Das verzerrrt das ganze doch ziemlich.


Zu den guten Vorsätzen:
Ich hoffe dieses Jahr die neue Seite fertigzustellen und online zu bringen. Die neue Datenbank läuft ja schon ein ganze weile mit. Muss eigentlich nur noch das Frontend fertiggestellt werden. :roll:
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Vorsätze für 2008?

Beitragvon rzkh » Mo Dez 31, 2007 5:23 am

PCA42 hat geschrieben:Bevor ich hier den Spielverderber gebe, biete ich als guten Vorsatz für das nächste Jahr weiterhin das zuverlässige Hosten einer größtmöglichen Anzahl an Daten (hallar1-8). Mal schauen, ob ich meine Resourcen noch ausbauen kann, derzeit ist bei mir leider die Internet-Verbindung am Ende Ihrer Leistungsfähigkeit (DSL 2000).


Woah, 8 fleissige Rechner an einem DSL2000? Der Router kriegt doch rote Ohren, oder? :)

Ab einer gewissen Grösse müssen wir nachdenken, ob grössere Peers auf Dauer sinnvoll sind oder nicht. Wenn doch (ich gehe davon aus), müsste mal ein Topf gegründet werden, um ein paar Stromfresser zu bezahlen. Notfalls weiss ich, in welchem Rechenzentrum noch 3000qm frei sind und man im Notfall auch 1GBit Bandbreite lutschen darf. Aber kostenlos ist sowas leider nie :(

Ich habe meine alte 4*Xeon550er Möhre mal von Yacy befreit. Die Maschine muss (noch?) unter Windows und einigen VMs laufen - und die Windows-Speicherverwaltung kriegt auf Dauer einen Vogel mit der Kombi Java/Yacy... Mal schauen, was für Stromfresser ich freischaufeln kann, derzeit crawlt nur eine kleine AS/400 mit (2*POWER4 550MHz, 5GB RAM) - und leider habe ich meine grosse Datenbank auf dem PC nicht gesichert, bevor die !§$)(E)T= IDE-Platte den Geist aufgegeben hat...

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: Vorsätze für 2008?

Beitragvon tesla » Mi Jan 02, 2008 11:56 am

PCA42 hat geschrieben:Dann möchte ich aber mal auf die Linkzahlen zurückkommen: es sieht super aus, wenn auf yacystats Werte von mehreren hundert Millionen auftauchen. Aber man muss sich auch mal verdeutlichen, wie diese Zahlen zustande kommen. Und diese riesige Linkzahl kommt nur zustande, weil jeder Peer die benötigten URLs zu den Wörtern mit vorhält. Ich schätze mal, eine realistische Menge an Links wäre bei maximal 50 Millionen. Die riesigen Wortzahlen kommen zustande, weil viele Wörter doppelt liegen durch zu langsames verteilen der geparsten Daten.


Wie sind denn die Linkzahlen jetzt wirklich zu verstehen? Eine Milliarde wäre ja nur noch Faktor 10..20 von google entfernt :-)

1. Sind das die gecrawlten Links (vor Dht-Transfer), oder die Webseiten deren Worte schon die richtige Position im DHT haben (und damit für die Suche zur Verfügung stehen, d.h. nach DHT-Transfer)

2. Nach dem Dht Transfer enthält z.B. ein Peer das Wort "Suchmaschine" und ein anderer das Wort "YaCy". Angenommen beide Worte stammen aber von der selben Webseite. Wird das in der Summe als ein oder als als zwei Links gezählt?

3. Wenn zwei Peers die gleichen Links gecrawlt haben, wird das in der Summe rausgerechnet oder doppelt gezählt?

4. So wie ich es verstanden habe gibt es in Yacys DHT ja eine gewollte Redundanz. Werden die redundanten Links in der Summe rausgerechnet oder doppelt gezählt?

5. Was sind denn Links eigentlich? Vollständige Webseiten, oder auch Links die in einer Webseite vorkommen, aber selbst noch nicht gecrawlt worden?

Vielleicht könnte man ja in yacystats eine kurze Erklärung zu den FAQ hinzufügen?
tesla
 
Beiträge: 11
Registriert: Do Jun 28, 2007 9:45 am

Re: Vorsätze für 2008?

Beitragvon PCA42 » Mi Jan 02, 2008 2:21 pm

Stark vereinfachtes Beispiel: die erste Web-Seite enthält die Wörter "Otto Meier steht hinter einem Berg", die zweite Seite "Otto Meier geht vor den Berg".
Peer 1, 2 und 3 bekommen "Otto" und "Berg". 3, 4 und 5 erhalten "steht" und "geht". Und zu guter letzt erhalten 5, 6 und 7 die Wörter "hinter" und "Meier". Die Wörter "einem", "vor" und "den" werden aufgrund der Einstellungen garnicht erst berücksichtigt.

Schon sind aus einem 2 Links und 6 Worten in der Statistik vor dem Verteilen nach dem Verteilen
1: 2 Links, 2 Worte
2: 2 Links, 2 Worte
3: 2 Links, 4 Worte
4: 2 Links, 2 Worte
5: 2 Links, 4 Worte
6: 2 Links, 2 Worte
7: 2 Links, 2 Worte
und damit zusammen 14 Links und 18 Worte.

Und nun zu deinen Fragen:
1. Sind das die gecrawlten Links (vor Dht-Transfer), oder die Webseiten deren Worte schon die richtige Position im DHT haben (und damit für die Suche zur Verfügung stehen, d.h. nach DHT-Transfer)?

Sowohl als auch, den die Links werden immer dann mit verteilt, wenn der Link auf dem Ziel nicht vorhanden ist.
2. Nach dem Dht Transfer enthält z.B. ein Peer das Wort "Suchmaschine" und ein anderer das Wort "YaCy". Angenommen beide Worte stammen aber von der selben Webseite. Wird das in der Summe als ein oder als als zwei Links gezählt?

Wie aus dem Beispiel ober zu erkennen ist, werden das zwei Links.
3. Wenn zwei Peers die gleichen Links gecrawlt haben, wird das in der Summe rausgerechnet oder doppelt gezählt?

Sobald die Seite verteilt ist, wird diese Redundanz aufgelöst.
4. So wie ich es verstanden habe gibt es in Yacys DHT ja eine gewollte Redundanz. Werden die redundanten Links in der Summe rausgerechnet oder doppelt gezählt?

Diese Redundanz wird nicht herausgezählt.
5. Was sind denn Links eigentlich? Vollständige Webseiten, oder auch Links die in einer Webseite vorkommen, aber selbst noch nicht gecrawlt worden?

Ein Link entspricht hier einer gecrawlten Seite.

Nach diesem kleinen Exkurs sind die Zahlen von yacystats schon interessant, man muss aber den Ursprung verstehen. Die Zahl der Links hängt also maßgeblich von den bisher gecrawlten Seiten und der der folgenden Verteilung ab. Wie bereits vorher geschrieben gehe ich davon aus, dass aufgrund der Zählweise die bisherige Linkzahl maximal beim Doppelten der größten Peers liegt, da eigentlich aufgrund der Verteilung diese stabilen Peers jede URL mit abbekommen sollten. Die Zahl der Worte finde ich noch weniger hilfereich, da hier die bezweckte Redundanz (drei) und z.B. die langsame Verteilung berücksichtigt werden müssen. Auch entstehen fehlerhafte Worte (Fuchs schrieb z.B. von japanischer Schrift die bisher fehlerhaft geparste wird).

Vorschlag: sollten wir vielleicht die Anzahl der von einem Peer gehaltenen Entries (Kombinationen aus Wort und Link) erfassen, um das Wachstum zu verdeutlichen?
PCA42
 

Re: Vorsätze für 2008?

Beitragvon tesla » Mi Jan 02, 2008 9:25 pm

PCA42 hat geschrieben:Nach diesem kleinen Exkurs sind die Zahlen von yacystats schon interessant, man muss aber den Ursprung verstehen.


Danke für die schnelle und ausführliche Antwort!
tesla
 
Beiträge: 11
Registriert: Do Jun 28, 2007 9:45 am

Re: Vorsätze für 2008?

Beitragvon Orbiter » Mi Jan 02, 2008 11:15 pm

Finde ich gut das ihr hier schon mal ein wenig Planungen und Aussichten fürs kommende Jahr macht. Das URL-Count - Thema ist ein bisschen OT, und die Zählung der 400 Mio Links ist tatsächlich insofern unrichtig, da es viele doppele URLs sind, allerdings ist es trotzdem so dass YaCy im Netz so viele URLs verwalten kann, nur eben leider nicht komplett unterschiedliche.

Ich habe natürlich auch ein wenig geplant und gewisse Ziele festgelegt:

- Autoritätsgewinn:
wir brauchen Partner, Institutionen und Pressestimmen die uns bescheinigen das wir das beste am 'Markt' befindliche Suchmaschinen-System produziert haben, und nicht nur 'Vorreiter für P2P-Suchmaschinentechnik' (Zitat aus aktueller c't) sind (was ja auch nicht schlecht ist). Dazu gehört es, dass ein bekanntes Unternehmen, eine Uni oder eine angesehene öffentliche Einrichtung YaCy einsetzt. Das wird mehr Aufmerksamkeit auf YaCy richten und damit auch Unterstützer für das öffentliche Suchnetz bringen

- Qualitätsgewinn:
Vega hat geschrieben:Um eine höhere Akzeptanz von Yacy zu erreichen wäre meiner Meinung nach eine Suche nach Umlauten wichtig
... ist nur ein Punkt der verbessert werden sollte. Ich hatte hier schon mal um Mitarbeit dazu gebeten, vielleicht kommt ja wieder Schwung in das Thema. Und die Suchergebnisse müssen schnell (< 1 Sekunde), nachvollziehbar und gut geordnet kommen. Ich denke dieses Ziel ist nun dieses Jahr erreichbar.

- Positionierung gegen Wikia Search:
Dieses Projekt will eigentlich genau das, was wir hier bereits erreicht haben. Nun werden die ein 1000-Rechner - Cluster mit Nutch präsentieren, das ist aber auch nur eine weitere zentrale Suchmaschine ohne das ich da ein Mitwirkungsrecht und Schutz gegen Zensur sehe. Wer dem YaCy-Projekt helfen will kann losziehen und in den ganzen Blogs und Foren wo über Wikia Search berichtet wird Kommentare hinterlassen, die darauf hinweisen das man bei Wikia Search nicht das findet was sie versprochen haben, aber das man dies bei YaCy finden kann. D.h. einfach die gesamte Wikia-Presse/Publicity nutzen um YaCy bekannter zu machen.

und .. es wird auch schon bald wieder was neues in der Presse geben...
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Vorsätze für 2008?

Beitragvon apfelmaennchen » Do Jan 03, 2008 6:40 pm

Ich möchte mal eine Frage in die Runde werfen: Wer von Euch benutzt yacy wirklich zum Suchen?
Sollte vielleicht anstelle von RWIs und URLs nicht z.B. QPH eine unserer maßgeblichen Zielgrößen sein?
Eine Suchmaschine zeichnet sich doch grundsätzlich dadurch aus, wie häufig und wie schnell sie ein qualitativ gutes Ergebnis abliefert.
Als Betreiber eines yacy-Peers möchte ich Nutzen aus einem gutem Suchergebnis ziehen....wo mein Peer in der RWI/URL-Rangliste steht ist mir dabei egal.
Je mehr Menschen diesen Nutzen zu schätzen lernen, desto mehr Nutzer und damit Peers wird das Netzwerk haben.
Keine Umlaute suchen zu können, oder die Möglichkeit nach Dingen wie "Mac OS X" suchen zu können gewinnen dann vielleicht mehr an Gewicht, als 2, 3, 5 Mio. RWI/URL?
Ebenfalls ein Thema, die Performance bei der Suche nach mehreren Suchworten, oder der Ausschluss eines Suchwortes, beides eine absolute Notwendigkeit für eine qualitativ hochwertige Suche im Internet.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Vorsätze für 2008?

Beitragvon Orbiter » Sa Jan 05, 2008 12:32 am

apfelmaennchen hat geschrieben:Ich möchte mal eine Frage in die Runde werfen: Wer von Euch benutzt yacy wirklich zum Suchen?

sciencenet.fzk.de ist tatsächlich recht schnell, stabil und hat einen guten Index durch Auswählen von Webseiten aus Wissenschaftsbereichen. Ja das benutze ich recht oft.

Die These 'korrekte Suche mit mehr Optionen' gegen Quantität war zumindest in der Vergangenheit, wo wirklich nur wenige Millionen Seiten im Index waren falsch. Man braucht halt beides. An beiden Dingen arbeiten wir.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Vorsätze für 2008?

Beitragvon Huppi » Mo Jan 07, 2008 8:58 pm

Als Community-Ziel (zusätzlich zu den Zielen für die Entwickler) sehe ich so wie Apfelmännchen auch eher eine intensivere Nutzung der Suche als ein Wachstums an URLs und Words.
Zusätzlich finde ich ein Wachstums auf 200 Peers hilfreich. Das hat etwas mit Werbung und Überzeugung aber auch mit Entwicklung zu tun: "lastarmes" Laufen nebenbei (auch mit "nur" 256MB Speicherzuweisung), einfache Installation, mehr automatische Reparaturmechanismen oder direkte Hinweise auf Reparaturmaßnahmen.

Das Schöne an der Suchintensität ist, daß da jeder mittun kann! Wenn jeder 10 mal am Tag über YaCy sucht, dann haben wir schon viel erreicht.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste