Ein kurzer Test von YaCy

Ereignisse, Vorschläge und Aktionen

Ein kurzer Test von YaCy

Beitragvon netAction » Fr Jun 06, 2008 6:03 pm

Hallo!

Auf dem Linuxtag in Berlin habe ich YaCy gesehen und war sofort begeistert. Auch wenn das Konzept noch nicht voll durchdacht ist, könnte es funktionieren. Also lud ich zu Hause sofort die neueste Version herunter, das war kein Problem.

ark weigerte sich das Archiv zu entpacken. Es wäre defekt. "$ tar xfz" dagegen tat was es sollte. Na gut.
Nach einiger Suche fand ich eine etwas umständlich beschriebene Readme mit Verweis auf die Shellscripte im Stammverzeichnis. Der Server lief sofort problemlos an.

Im Browser folgte der Schock. Millionen Unterseiten, teilweise völlig unstrukturiert verlinkt. Ich kämpfte mich durch. Verbrauch von Platte und RAM erstmal hochgesetzt, Server neu gestartet.
Ich wäre nicht im Netz, sagte die Startseite. Also gab ich den Port 8080 im Router frei, dann funktionierte auch das. Das müsste nicht sein, wenn meine Maschine als reine Datenbasis von anderen Servern laufen würde. Dann würde mein Rechner die Verbindungen über den DSL-Router einmalig aufbauen, und der Transfer könnte in beide Richtungen problemlos auch ohne Portfreigabe funktionieren. Aber gut, dieser Clientmodus bedeutet wahrscheinlich momentan einen zu hohen Programmieraufwand.

Dann wollte ich mein kleines PHPBB-Forum scannen. Pustekuchen, wegen der ?-URLs geht das nur im Expertenformular. Schade, mit ein paar Klicks meine Webseiten zu indizieren funktioniert also nicht. Statt dessen konnte ich alles Mögliche einstellen, von dem ich keine Ahnung habe. Egal. Ich nahm http://www.tu-berlin.de, damit war für Beschäftigung gesorgt.

Ein Blick in die Liste der Server zeigt jedoch, dass die anderen alle gar nichts scannen. Und als tu-berlin.de fertig war, langweilte sich auch mein Rechner wieder. Fällt dem denn gar nichts ein mit seinen Kapazitäten anzufangen? Sehr schade.

Was ich nicht herausfinden konnte, war, ob mein Crawler gerade etwas tut. Anscheinend kommt bei Arbeitslosigkeit eine Warnung auf der Statusseite, aber eben keine Info beim Crawlen.

Im Status möchte ich wissen:
- Wie viel RAM wird gerade gebraucht?
- Wie viel Festplatte?
- Wie viele Seiten sind insgesamt indiziert?
- Welche Seiten werden gerade gecrawlt oder wird gar nicht gecrawlt?
- Bin ich richtig ins Netz eingebunden?
- Welche URL hat meine Suchmaschine (reverse DNS)
Die meisten anderen Informationen sagten mir nichts oder trugen zur Extremverwirrung bei.

Der gesamte Core Duo mit Ubuntu 8.04 war so derart lahm, dass ich dem Task mit nice 19 die niedigste Priorität gab. Vergebens, nicht mal Youtube konnte ich gucken. Also war ich gezwungen, den Thread abzuschießen und YaCy zu löschen. Schade. Ich wollte es eigentlich auf meinem Webserver installieren.

Schließlich meldete ich mich hier an. Und schon wieder war es unsinnig kompliziert. Warum zum Teufel geht der Name meiner Freundin nicht als Passwort? Das nehme ich doch immer, jedes andere vergesse ich. Wenn ich mich hier nochmal einloggen soll, lasst ein Passwort zu, das ich mir merken kann.



Konzeptionell muss ich sagen, dass ich das Ziel des Einsatzes von Java nicht ganz sehe. Es soll wohl eine schicke kleine Applikation sein, die man überall mal schnell laufen lassen kann. Das ist auch gelungen. Nur: Wer installiert sich ernsthaft so ein Teil zu Hause? Den meisten Leuten ist das zu blöd. Kostet Traffic, fliegt bald wieder von der Platte.
Wären
- die milliarden überflüssigen Menüs weg
- vernünftige Statusmeldungen verfügbar
- meine anderen Anwendungen noch benutzbar
- die Nichtstuzeiten ab der ersten Sekunde nach der Installation weg
würde die Sache schon wieder anders aussehen.

Einen echten Mehrwert kann YaCy zu Hause nicht bieten, aber einen pflegebedürftigen Bremsklotz. Normalanwender interessiert das einen Scheiß, Geeks stehen auf schlanke Systeme. Wer lässt sich dann noch die Platte vollmüllen?

Anders sieht es auf dem Webserver aus. Eine fix und fertige Suchmaschine fürs gesamte Intranet? Fein. Eine Suchmaschine für die eigenen Webseiten als Alternative zur Googlebar? Klaro. Da freuen sich die Webspacekunden. Eine Suchmaschinenoptimierung dadurch, dass die eigene Seite besser gecrawlt wird? Ich höre das Webdesignerherz pochen.

Meine Frage ist dann, ob sich YaCy als PHP-Script mit MySQL umsetzen lässt. Wegen der Timeouts müssten sich die Server permanent gegenseitig aktiv halten. Wenn es so etwas geben würde, würde ich es auf meinem Webspaceserver installieren. Beim Javaapplet hätte ich meine Bedenken. Ich würde es in ein chroot sperren wollen.

Die Argumentation ist ganz einfach: Eine Webseite mit X MB braucht in der YaCy-Datenbank im Schnitt Y MB. Das ist so wenig, dass jeder Webspacekunde mit egal wie wenig Platz immer noch locker 10*Y zur Verfügung hat. Dann hat er nicht nur seine Seite, sondern noch neun andere gleichgroße Seiten im Speicher. Und dient mit diesen restlichen 90% dem Projekt.




Ich würde YaCy zu Hause wieder installieren, aber es müsste ein kleines Widget sein. Das Chaos tue ich mir lokal nicht nochmal an. Auf dem Server würde ich YaCy 100GB geben, aber die Spielregeln sind dort streng. Normalerweise installiere ich nur PHP-Scripte mit open basedir, safe mode und chroot. Und welche, die nicht Amok laufen.

Das wäre dann allerdings auch meine ganze Unterstützung von YaCy. Mehr als einen Arbeitstag werde ich nicht opfern, dafür habe ich viel zu viele eigene freie Softwareprojekte.

Vielleicht bringt mein Beitrag etwas,
Thomas
netAction
 
Beiträge: 4
Registriert: Fr Jun 06, 2008 5:15 pm

Re: Ein kurzer Test von YaCy

Beitragvon Huppi » Fr Jun 06, 2008 9:18 pm

Hallo Thomas,

willkommen im Forum und vielen Dank für Dein Feedback. YaCy ist produktiv nutzbar aber noch immer in einer 0.x-Versionsnummer. Verbesserungen an der Nutzerschnittstelle sind sicherlich notwendig und auch z.T. im Arbeit. Aktuell werden diese ganzen komplizierten Einstellmöglichkeiten aber gebraucht, um YaCy für verschiedene Use-Cases und Rechner-Plattformen optimieren zu können.

Der Crawler in YaCy ist eine tolle Sache, aber tatsächlich aktuell in den Standardeinstellungen eher auf Performance als auf Ressourcen-Sparen getrimmt. Auch hier wird es zukünftig einfachere Einstellmöglichkeiten geben. Die Standardeinstellungen sind ideal für einen Rechner, der außer YaCy-Crawlen nichts anderes machen soll. Für einen PC, der nur nebenbei ein bißchen YaCy machen soll, macht intensives Crawling keinen Sinn. Ein YaCy-Peer kann aber trotzdem sinnvoll beitragen: Datenspeicherung per DHT, Beantworten von Suchanfragen. Damit läuft YaCy hervorragend auf meinem AMD Duron 1800 MHz mit 2 GB RAM unter Ubuntu 8.04. Alternativ auch als Crawler mit 100PPM, aber dann würde ich auch parallel kein OpenOffice o.ä. starten wollen. Also: entweder crawle ich auf der Kiste, oder ich mache etwas anderes. In der Praxis nutze für das produktive Arbeiten halt meinen Pentium 4 Rechner und die YaCy-Kiste darf machen, was sie will ;-)

Ich würde mich freuen, wenn wir Dich gewinnen können, dauerhaft dieses tolle Projekt zu unterstützen. Deine Rückmeldung hier hilft sicherlich, die Einstiegshürden, die andere ja sicher auch haben, zu überwinden.

P.S.: Wie heißt Deine Freundin? Und bist Du in anderen Foren mit gleichem Nickname unterwegs? ;-P
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Ein kurzer Test von YaCy

Beitragvon datengrab » Fr Jun 06, 2008 10:24 pm

Hallo Thomas, wilkommen!
netAction hat geschrieben:Im Browser folgte der Schock. Millionen Unterseiten, teilweise völlig unstrukturiert verlinkt.

Daran wird momentan intensiv gearbeitet.
Das müsste nicht sein, wenn meine Maschine als reine Datenbasis von anderen Servern laufen würde. Dann würde mein Rechner die Verbindungen über den DSL-Router einmalig aufbauen, und der Transfer könnte in beide Richtungen problemlos auch ohne Portfreigabe funktionieren. Aber gut, dieser Clientmodus bedeutet wahrscheinlich momentan einen zu hohen Programmieraufwand.

Es ist keine Frage des Programmieraufwands, sondern des Konzepts. YaCy ist ein System, das komplett darauf ausgerichtet ist ohne irgendwelche zentralen Server auszukommen. Du kannst jeden beliebigen Rechner aus dem Netz nehmen und das Netz lebt trotzdem weiter. Um soetwas zu erreichen ist natürlich ein etwas größerer Aufwand nötig.
Ein Blick in die Liste der Server zeigt jedoch, dass die anderen alle gar nichts scannen. Und als tu-berlin.de fertig war, langweilte sich auch mein Rechner wieder. Fällt dem denn gar nichts ein mit seinen Kapazitäten anzufangen? Sehr schade.

Die Peer tun immer noch etwas. Sie sorgen z.B. dafür das die Daten die sie "ercrawlt" haben zu den Peer geschafft werden, bei denen sie später auch gesucht werden. Und nicht zu vergessen werden Suchanfragen beantwortet.
Was ich nicht herausfinden konnte, war, ob mein Crawler gerade etwas tut. Anscheinend kommt bei Arbeitslosigkeit eine Warnung auf der Statusseite, aber eben keine Info beim Crawlen.

Im Status möchte ich wissen:
- Wie viel RAM wird gerade gebraucht?

Adminkonsole / Performance Einstellungen für Speicher(PerformanceMemory_p.html)
- Wie viel Festplatte?
- Wie viele Seiten sind insgesamt indiziert?

Findet sich auf der Statusseite unten im Banner unter Links
- Welche Seiten werden gerade gecrawlt oder wird gar nicht gecrawlt?

Crawler Start und Kontrolle (WatchCrawler_p.html)
Meine Frage ist dann, ob sich YaCy als PHP-Script mit MySQL umsetzen lässt.

Wohl ehrer nicht. Ein MySQL backend für YaCy wurde schonmal erprobt, erwies sich aber als viel zu langsam. Und PHP, nun gut, dazu sage ich besser nichts...
Vielleicht bringt mein Beitrag etwas,
Thomas

Dein Beitrag ist konstruktive Kritik und die bringt immer etwas. Danke dafür!

Zum Thema "nebenher ein wenig crawlen". Das ist zwar möglich, aber empfehlen kann man es nicht wirklich. Das hat ganzeifach mit der enormen Datenmenge zu tun die dabei durch die Gegend geschaufelt werden muss. Nichtsdesdotrotz wird auch an dieser Front gearbeitet und es wurden schon massive Verbesserungen bei der Performanz gemacht.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Ein kurzer Test von YaCy

Beitragvon netAction » Sa Jun 07, 2008 9:01 am

Es freut mich, dass ich unterstützen kann.

Das mit meiner Freundin war ein Scherz. Als Admin weiß ich, dass 20% der Passwörter tatsächlich der Name der Frau sind.

Ich werde euch im Auge behalten und schauen was passiert. Lasst euch bloss nicht von der geringen Zahl Peers entmutigen. Schließlich ist YaCy momentan nur etwas für Hartgesottene.

Vergessen kann ich euch eh nicht wegen des tollen Kulis.

Thomas
netAction
 
Beiträge: 4
Registriert: Fr Jun 06, 2008 5:15 pm

Re: Ein kurzer Test von YaCy

Beitragvon HopFlash » Sa Jun 07, 2008 11:13 am

also ich muß sagen, daß ich momentan Yacy sehr entspannt auf meinem Desktop-PC laufen lassen kann. Sogar beim Crawlen und sogar bei Spielen (natürlich nicht sowas wie Crysis o.ä.).
Mein Rechner:
OS: WinXP
CPU:Athlon 64 3700+ (Single Core)
RAM: 3GB
HD: normale IDEs

Yacy:
fast Standardeinstellungen, nur auf 768MB RAM hoch, Internet-Cache auf 1GB und Timing für Remote-Crawls umgestellt, wegen kleinem Einsortier-Bug der Proxy-Crawls.

Die CPU langweilt sich die meiste Zeit und die IO wird eigentlich nur momentan richtig beansprucht, wenn der Internet-Cache gelöscht wird oder ich mit fast 200PPM (Seiten pro Minute) crawle.

Natürlich ist Yacy ein kleines Monster, was gerne RAM und HD frisst, aber im Gegensatz zu noch einigen Monaten wirklich schlanker und effizienter geworden. Das einzige was mich gerade abhält einen Peer auf meinem VServer zu bringen ist der HD Verbrauch, da ich dort nur 30GB zur Verfügung habe. Da es mich aber nicht beim Arbeiten stört, kann es ja auch zu Hause auf dem Desktop laufen.

Yacy ist definitiv für Otto-Normalbenutzer noch zu unhandlich, aber für die meisten "Geek" und noch ein paar mehr, schon wirklich nützlich.

Ich hoffe, auch mein Beitrag konnte helfen...vielleicht sogar um Thomas wieder zurückzugewinnen? ;)

PS: Nimm am besten die aktuelle SVN-Version und nicht die letzte "Stable", da dort aus meiner Sicht ein paar nervige Bugs drin sind.
PPS: Unter meinem Kubuntu (Dualboot) hatte ich auch ein Performance-Problem. Da war mit den gleichen Daten und Einstellungen, die CPU permanent ausgelastet. Ich dachte, es lag an der relativ schlechten Performanceumsetzung von NTFS-Zugriff, da ich die Daten nicht auf Ext3 rüber kopieren wollte, aber vielleicht ist das gerade ein grundsätzliches Problem!?
HopFlash
 
Beiträge: 30
Registriert: Fr Dez 28, 2007 11:24 pm

Re: Ein kurzer Test von YaCy

Beitragvon tara » Sa Jun 07, 2008 5:24 pm

netAction hat geschrieben:Der gesamte Core Duo mit Ubuntu 8.04 war so derart lahm, dass ich dem Task mit nice 19 die niedigste Priorität gab. Vergebens, nicht mal Youtube konnte ich gucken. Also war ich gezwungen, den Thread abzuschießen und YaCy zu löschen.


Mit nice wird nur die Prozesspriorität definiert. Der Flaschenhals in YaCy ist jedoch meistens I/O. Die I/O Priorität kannst Du unter Linux mit ionice einstellen. Vielleicht bringt das etwas.
tara
 
Beiträge: 41
Registriert: Fr Jan 11, 2008 8:43 pm

Re: Ein kurzer Test von YaCy

Beitragvon netAction » Sa Jun 07, 2008 6:06 pm

Habe ich gerade nochmal probiert. Das funktioniert nicht.
$sudo ionice -c3 -p12345
Der Firefox hängt immer noch wie bescheuert.
netAction
 
Beiträge: 4
Registriert: Fr Jun 06, 2008 5:15 pm

Re: Ein kurzer Test von YaCy

Beitragvon HopFlash » Sa Jun 07, 2008 7:13 pm

ist das Problem denn nur bei Thomas und mir unter Linux so?

Vielleicht liegt es an irgendwas das bei Ubuntu 8.04 bei ist, irgendeine Bibliothek oder doch der Dateisystemtyp?
HopFlash
 
Beiträge: 30
Registriert: Fr Dez 28, 2007 11:24 pm

Re: Ein kurzer Test von YaCy

Beitragvon netAction » Sa Jun 07, 2008 7:22 pm

Also ich habe ext3.
netAction
 
Beiträge: 4
Registriert: Fr Jun 06, 2008 5:15 pm

Re: Ein kurzer Test von YaCy

Beitragvon miTreD » Sa Jun 07, 2008 7:25 pm

HopFlash hat geschrieben:ist das Problem denn nur bei Thomas und mir unter Linux so?
Gentoo 2.6.24-gentoo-r4 keine Probleme. Alledings habe ich auch eine besondere Konstellation: Mein YaCy läuft komplett auf XFS. HTCACHE hingegen befindet sich in einer Image-Datei formatiert auf ReiserFS.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Ein kurzer Test von YaCy

Beitragvon datengrab » Sa Jun 07, 2008 7:40 pm

miTreD hat geschrieben:HTCACHE hingegen befindet sich in einer Image-Datei

Bringt das was? Wenn ja, was und wieso?
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Ein kurzer Test von YaCy

Beitragvon miTreD » Sa Jun 07, 2008 7:53 pm

Hmmm, gut Frage. Subjektiv glaube ich, ist das schneller. Habe mich ein wenig im Netz informiert, bevor ich das so gemacht habe. XFS ist gerade bei großen Dateien (Image Datei) wesentlich schneller als die anderen gängigen Dateisysteme. ReiserFS hingegen soll wohl bei vielen kleinen Dateien (HTCACHE) besonders schnell sein. Außerdem hat mich ein Beitrag aus dem Gentoo Wiki, zur Beschleunigung von emerge, auf diese Idee gebracht.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Ein kurzer Test von YaCy

Beitragvon Huppi » So Jun 08, 2008 2:02 pm

HuppisYaCyBox läuft ja jetzt auch unter Ubuntu 8.04 und hostet den Motorradpeer MotoYaCy.
Wenn der Peer kräftig crawlt ist der Firefox langsam, aber das Kistchen hat halt auch nur einen 1800MHz Duron Prozessor.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron