Nicht ganz klar

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Nicht ganz klar

Beitragvon Limburg_co » Do Feb 02, 2012 3:48 pm

Hallo,

ich bin völlig neu was Yacy anbelangt. Ich habe Yacy auf meinen "Lernserver" hochgeladen und betreibe es dort. Bei eigenen Suchanfragen stürzt Yaci leider immer wieder ab. Ist für meine kleine Kiste (1GB Ram 250 GB Harddisk) alles zuviel.

Mein Crawler abeitet so vor sich hin, ist aber äußerst langsam (8 bis 40 PPM). Wurden Seiten gecrawelt, so ist nicht sicher, dass ich nach Ihnen erfolgreich suchen kann. Die Suche ist äußerst langsam (mehrere Minuten) dauert es, bis alle Ergebnisse sichtbar sind. Es ist mehr oder weniger zum verzweifeln, da die Ergebnisse sich immer wieder ändern. Will man einigermaßen Ergebnisse erhalten, muss man viele Seiten crawlen oder eine Seite mehrfach.

Nun ist natürlich die Frage, ob meine Seiten für die Comunity überhaupt interessant sind oder ob ich sie mit "Mist zuhaue". Weiterhin wäre schön zu wissen, dass nicht gerade 10 andere die gleiche Seite in Angriff nehmen. Ich bin nicht gut im rechnen, aber all das und die Tatsache, das knapp die Hälfte der Peers passiv sind, läßt mich wirklich am Erfolg von Yacy zweifeln, es ist weit von einem benutzbaren Werkzeug entfernt, zumindest in meinen Augen.

"Wir" sollten in meinen Augen über folgendes nachdenken:

1. Indizes (spezialisiert), die nicht verloren gehen und für die der entsprechende die Verantwortung trägt, auch wenn die Gefahr besteht, dass bei vernachlässigtem Index die Suche zu Müll wird, aber so hat man zumindest ein für sich funktionierenden lokalen Index, man will schließlich arbeiten.
2. Mehr Rechner im Hintergrund, so dass die Leute suchen können, ohne "Angst" haben zu müssen, was das öffnene von Ports etc. anbelangt.
3. Ex- und Import von Indizes, so dass sie nicht verloren gehen, wenn ein Rechner zu wechseln ist oder ein Rechner die Aufgabe eines anderen übernehmen soll.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Lotus » Do Feb 02, 2012 4:21 pm

Hallo,

Limburg_co hat geschrieben:ich bin völlig neu was Yacy anbelangt. Ich habe Yacy auf meinen "Lernserver" hochgeladen und betreibe es dort. Bei eigenen Suchanfragen stürzt Yaci leider immer wieder ab. Ist für meine kleine Kiste (1GB Ram 250 GB Harddisk) alles zuviel.

Haben die Suchanfragen ein spezielles Muster? Sind häufig vorkommende Wörter enthalten? Die Hardware reicht definitiv für einen größeren Datenbestand.

Nun ist natürlich die Frage, ob meine Seiten für die Comunity überhaupt interessant sind oder ob ich sie mit "Mist zuhaue". Weiterhin wäre schön zu wissen, dass nicht gerade 10 andere die gleiche Seite in Angriff nehmen. Ich bin nicht gut im rechnen, aber all das und die Tatsache, das knapp die Hälfte der Peers passiv sind, läßt mich wirklich am Erfolg von Yacy zweifeln, es ist weit von einem benutzbaren Werkzeug entfernt, zumindest in meinen Augen.

Ob Seiten interessant sind entscheidet der Suchende, und das Ranking wählt die Seiten aus. Je mehr Auswahl, desto besser.
Passive Peers sind offline und waren mal Senior, also vollständig erreichbar, Ports freigegeben. Das zeigt doch auch den Erfolg von YaCy. Mein PC ist zumindest nicht den ganzen Tag eingeschaltet.

1. Indizes (spezialisiert), die nicht verloren gehen und für die der entsprechende die Verantwortung trägt, auch wenn die Gefahr besteht, dass bei vernachlässigtem Index die Suche zu Müll wird, aber so hat man zumindest ein für sich funktionierenden lokalen Index, man will schließlich arbeiten.

Hört sich nach einer Forderung nach einem "privaten Index" an. Multi-Index ist glaube ich bereits vorgesehen (siehe Datenstruktur der Ordner), aber noch nicht implementiert.

2. Mehr Rechner im Hintergrund, so dass die Leute suchen können, ohne "Angst" haben zu müssen, was das öffnene von Ports etc. anbelangt.

Niemand muss Angst haben Ports zu öffnen. Wieso auch. In den meisten Fällen in denen sie nicht offen sind wird es sich schlichtweg um Personen handeln die faul sind oder nicht wissen wie es geht.

3. Ex- und Import von Indizes, so dass sie nicht verloren gehen, wenn ein Rechner zu wechseln ist oder ein Rechner die Aufgabe eines anderen übernehmen soll.

Dazu kann man den SEGMENTS Ordner vom Index in jede beliebige andere YaCy-Installation kopieren.

Grüße
Lotus
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Nicht ganz klar

Beitragvon Limburg_co » Do Feb 02, 2012 5:05 pm

Danke Lotus für die schnelle Antwort. Wie du siehst bin ich völliger Anfänger.

Jedes offene Port ist für mich eine potentielle Möglichkeit in meinen Rechner einzudringen. So wie ich es sehe, gäbe es ohne offenen Ports keine Hacker.
Nun ist mein Rechner jedoch mit Sicherheit für einen Hack nicht interessant genug. Wäre er es, gäbe es kein Yacy.

Die Suchzeit ändert sich, bei vielen möglichen Ergebnissen, weiterhin ändert sich das Ergebnis selbst, so dass man schon Müllen kann. Ich crawle zur Zeit Limburg.nl, Limburg.de, sew-eurodrive.de und spiegel.de.

Suche ich nach einer spezifischen Seite, so ändern sich die Suchergebnisse ständig. Was natürlich an meinen eigenen Crawls und meinen eigenen Interessen liegen kann.

Ich kann es nicht ändern, aber mein Rechner stürzt bei eigenen Suchen ab und an ab, will sagen ich will nicht länger als 30 Minuten warten und boote neu. Da weder Neustart, noch Herunterfahren noch kill eine Wirkung zeigen. Für mich ein interessantes "Spielzeug" aber weit von "Harmonie" entfernt. Mir ist aber natürlich klar, dass der Datenbestand erst aufgebaut werden muss und das meine Hardware sehr begrenzt ist.

Aus Interesse und um zu testen ist mein kleiner Server zur Zeit immer online, gut dass es was zu tun gibt. Yacy-Suche und "anspruchsvollere" Arbeiten auf dem Rechner scheinen jedenfalls nicht gleichzeitig zu funktionieren. Jedenfalls bei mir nicht, da braucht es schon mehr Speicher.

Was alles nicht heißt, dass ich nicht zu entsprechenden Investitionen bereit bin. Mir gefällt nämlich der Grundgedanke und ich erachte ihn als schützenswert, so dass es hier und da ruhig mal haken darf.



Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Lotus » Do Feb 02, 2012 8:03 pm

Jeder fing mal an. Ich auch. ;)

Limburg_co hat geschrieben:Suche ich nach einer spezifischen Seite, so ändern sich die Suchergebnisse ständig. Was natürlich an meinen eigenen Crawls und meinen eigenen Interessen liegen kann.

Das ist in YaCy tatsächlich so. Es gibt meist keine immer gleiche Reihenfolge im freeworld-Netz. Durch die Suche kann es vorkommen, dass andere Peers erst spät antworten und es dann mehr Auswahl an Treffern gibt aus denen das Ranking aufgebaut werden kann. Wenn lokal gesucht wird, ist das Ranking zuverlässiger.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Nicht ganz klar

Beitragvon Limburg_co » Do Feb 02, 2012 9:05 pm

Eine Suche ist eben keine Domain, die man eingibt, daran muss man sich halt wieder gewöhnen.

Nein, ich möchte nicht negativ sein. Ich finde die Yacy-Idee großartig. Ich bin sonst nicht die Person, die nach einer Hauptinstallation überhaupt noch etwas installiert, wenn es nicht unbedingt nötig ist. Yacy habe ich gleich auf allen Ubuntu-Rechnern installiert, so wichtig war mir die Idee. Leider habe ich nur eine Internetverbindung, so dass ich nur einen Rechner für Yacy im Netz habe.

Was die Sicherheit anbelangt, so muss man vertrauen, auch wenn ich ein zweites Einloggningsportal bevorzugen würde, also nicht nur die "Freischaltung" über den Browser. Weiterhin habe ich noch nicht untersucht wie kompliziert es ist, den eigenen Rechner durchsuchen zu lassen, nicht dass ich plötzlich meine E-Mails im Internet finde :lol: . In unserer heutigen Facebook-Zeit ist das scheinbar schon fast normal :roll:

Ich habe schon überlegt wie man Yacy auf einen Webserver bringen kann, wenn denn das Port benutzt werden darf. Das wäre doch noch ein Angebot Webserver mit Yacy. Ginge, wenn es nicht ab und an stocken würde. Soll die Installation auf Webservern laufen, muss es in meinen Augen stabiler laufen, fernsteuern könnte man es ja ohne Probleme. Ich sollte mit meinem "kleinen" Provider mal über die Sache sprechen, soll er eben auch port 8090 rausrücken. Wie das mit JAVA ist weiß ich "noch" nicht.

Bis 5000 GB Verkehr im Monat wäre doch was??!

Nochmals Danke für die Antworten. Man schreibt sich.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Do Feb 02, 2012 10:59 pm

Es scheint möglich zu sein, Yacy auf einem Cloud-Server laufen lassen zu können.

Das kostet in der einfachsten Ausführung bei http://citynetwork.se ca. € 14 pro Monat. Hinzu kommt der entsprechende Speicherplats, da man mit 20 GB im Dauerbetrieb nicht weit kommt.

Wenn eine zweite Person mitmacht und man die Kosten teilt, könnte man es ja mal probieren. Das könnte dann eine Unterstützung für den "Balancer" sein, wenn ich es richtig verstehe.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon pappe98 » Do Feb 02, 2012 11:27 pm

Hi,

also die sache mit dem Absprechern wer was crawlt ist nicht verkehrt so denke ich. Am besten Thread mit Sticky und dann alles da rein posten oder ?

Mfg
pappe98
 
Beiträge: 9
Registriert: So Jan 29, 2012 10:42 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Fr Feb 03, 2012 3:27 am

Gute Idee. Wer macht den Thread auf?

Momentan crawle ich Regeringen.se, UN.org und Ubuntu.de.

Und es hat gejuckt ich konnte es einfach nicht sein lassen. Yacy läuft jetzt auf einem Ubuntu Cloudserver (Limburg1). Das Ding ist zwar nur minimal eingerichtet aber es läuft. Mal sehen wie es nach einem Monat aussieht und weitergeht. Kein Problem funktioniert einwandfrei, besser als die kleine Kiste neben mir, obwohl der Cloudserver nur 528 MB Arbeitsspeicher hat. Wer also Interesse hat, es ist schnell eingerichtet.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Fr Feb 03, 2012 10:06 am

Der Server reicht bei weitem nicht. Steht fast nur still :|

Von Seitenindexieren kann nicht mehr die Rede sein.


Liebe Gruesse
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon bluumi » Fr Feb 03, 2012 2:06 pm

Limburg_co hat geschrieben:obwohl der Cloudserver nur 528 MB Arbeitsspeicher hat.

Also ich habe 3 kleine Peer mit je 1.5Gbyte RAM, welche bis ~5Mio URLs indexiert haben und seit da "zu wenig RAM" haben.
RAM ist ein sehr entscheidendes Kriterium, ob Du nur wenige, z.B. eben DEINE persönlichen URLs drin haben kannst oder mehr. Bei 500MB Ram, sehe ich schwarz für mehr als Deinen selbst genutzen URLs. Und für die eigenen bedarf es keiner Cloud. :D
[[Im Vergleich, auf dem Server mit 6Gbyte RAm kann es bereits 107Mio URLs lagern. ]]
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Nicht ganz klar

Beitragvon Limburg_co » Fr Feb 03, 2012 5:20 pm

Hallo

Du hast recht es funktioniert nicht. Aber jetzt habe ich mal einen Cloud Server eingerichtet. Und die ca. € 12,- für einen Monat Betrieb werde ich schon verkraften. Mal sehen, was nach einem Monat passiert.

Das Ding heißt CloudServer ich kann es nicht ändern. Und im Prinzip kann ja auch jeder der die Adresse meiner Hompage kennt von dort aus suchen, ohne Yacy installieren zu müssen. Also doch so eine Art kostenfreier Cloud-Dienst. Das Ganze funktioniert aber wegen der Hardware nicht. Mehr will ich mir zum Spielen aber nicht leisten.

Womit wir wieder am Anfang von "Nicht ganz klar" sind.

Es müssen eben entsprechende Maschinen her.


Liebe Grüsse
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Sa Feb 04, 2012 10:41 am

Jetzt läuft bei gleicher technischer Ausrüstung und Einstellung alles viel harmonischer.

Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Sa Feb 04, 2012 4:02 pm

So dumm wie man ist.

Das Problem war wahrscheinlich die Verwendung von "Live-Search". Jetzt kann ich Suchen.

Oi, Oi. Das Problem sitzt eben doch 50cm vorm Schirm.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Lotus » Sa Feb 04, 2012 5:32 pm

Limburg_co hat geschrieben:Das Problem war wahrscheinlich die Verwendung von "Live-Search". Jetzt kann ich Suchen.
Oi, Oi. Das Problem sitzt eben doch 50cm vorm Schirm.

Was angeboten wird, sollte auch funktionieren wie der Nutzer es erwartet. Was war das Problem, und wie konnte es gelöst werden?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Nicht ganz klar

Beitragvon Limburg_co » Di Feb 07, 2012 2:02 am

Hallo Lotus.

Also mein Problem ist gewesen, dass bei der Verwendung von live-search und bei Verwendung von Yacy als Cluster mein Rechner bei Suchanfragen überlastet war und Yacy einfach nicht mehr reagiert hat. Der Rechner für das Peer limburg1_co (Ubuntu Server) hat die Meldung Belastung größer als 1 rausgegeben.

Das ganze hat sich geändert nachdem ich die andere Suchoption eingebunden hatte (Such-Box überall). Jetzt habe ich Live-Search nochmal eingebunden und die Option "Öffentliches Peer" gesetzt. Die Suche dauert sehr lange (mit Anzahl der Wörter steigend bis zu mehreren Minuten) und ich erhalte die Fehlermeldung "Unknown Network Error! I try to reload..." Nach einiger Zeit kommt dann aber das Suchergebnis, ohne dass Yacy zum Stillstand kommt. Das Ganze ist aber nicht vetrauenserweckend für jemanden, der auf der Homepage etwas sucht.

Weiterhin mach die Verwendung eines Cloud-Servers (limburg1_co) keinen Sinn, da Yacy seit Beginn dieses Threats fast 13GB zusammengecrawled hat. Ein Cloud-Server ist auf diesem Hintergrund viel zu teuer. Es ist besser einen "Bastellrechner" mit entsprechendem Internetanschluss und Backup bereit zu stellen.

Nun, man muss das Ganze erstmal lernen und erfahren, anders kann man kein Urteil abgeben.

Erstaunlich ist, dass mein anderer Rechner bei höherer Anzahl von Links (limburg_co) nur 6GB zusammengecrawled hat.

Egal wie, ich werde am Wochenende Yacy höchstwahrscheinlich auf einem "Pflegerechner" installieren. Zum Test durch meinen Bekannten. Ich nehme jedoch an, dass das nicht gut geht, da die Dinge bei meinem Bekannten "funktionieren" müssen und das Zack, zack.

Philosphisch stehe ich zu Yacy, dass mit dem Zack, zack funktioniert aber nicht recht. Anstatt Yacy zu istallieren, ist ist die Bekanntgabe des eigenen Peers zum Testen wahrscheinlich die bessere Lösung, obwohl es ja darauf ankommt, das Yacy möglichst viele aktive Peers hat :roll: und nicht ein Rechner mit Suchanfragen überhäuft wird. :? . Also doch installieren! :o und um ein wenig Tolleranz bitten.

So sieht es zur Zeit hier aus.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Di Feb 07, 2012 2:20 am

Wer will kann ja einfach mal testen:

http://limburg.co oder http://limburg1.co


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Di Feb 07, 2012 3:39 am

Es tut mir leid, aber Live-Search funktioniert mit der Hardware eben doch nicht. Auch dann nicht, wenn der Modus öffentliches Peer aktiviert worden ist.

Ich kan Yacy nicht auf anderen Rechnern installieren. Noch nicht.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Di Feb 07, 2012 4:39 am

Wenn der DHT-Versand läuft, reicht der Arbeitsspeicher (0,5 GB bzw 1,0 GB) nicht für Live-Search. Live-Search funktioniert hier nur im Robinson-Modus.

Yacy scheint mir nützlich zu sein, um Seiten, die einen interessieren durchsuchen zu können, wenn denn ein crawel von der eigenen IP gestattet ist. :(


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Di Feb 07, 2012 12:21 pm

Eine Freundin von mir hat Yacy installiert, alles funktioniert, sie ist glücklich.

Was mache ich verkehrt?


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon pappe98 » Mi Feb 08, 2012 1:11 am

hab bei mir 1,5 Gb yacy gegeben und dem Raidcontroller nimmt sich im Raid5(3x640Gb) nochmal 1Gb bei Yacy betrieb.

Mfg
pappe98
 
Beiträge: 9
Registriert: So Jan 29, 2012 10:42 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Mi Feb 08, 2012 6:39 pm

Also, der Rechner von meiner Freundin hat 3GB Arbeitsspeicher und auch der glippt ab, wenn man ihn mit einer Suche über die öffentliche Adresse "beschäftigt", so er denn zusätzlich crawled.

Den DHT-Versand scheine man während des crawlens nicht ausschalten zu können. Crawlen, DHT-Versand und Indexieren sind einfach zu viel. Betreibe ich meinen Rechner im Robinson Modus (ohne DHT-Versand), so läuft alles einwandfrei. Warum kann man den DHT-Versand während des Cralens nicht deaktivieren so wie angegeben?


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Mi Feb 08, 2012 7:01 pm

Ich benutze Version 1.01/9277 und ich würde in meiner Begrenztheit sagen, dass es sich um einen Buk handelt.


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm

Re: Nicht ganz klar

Beitragvon Limburg_co » Do Feb 09, 2012 9:59 am

Auch im Robinson-Modus gibt es Probleme, wenn man viele Suchanfragen erhält. Erhält man sie kommt der Rechner (0,5 GB Arbeitsspeicher) einfach zum stehen, von einer eigenen Suche ganz zu schweigen. :mrgreen:


Liebe Grüße
Limburg_co
Limburg_co
 
Beiträge: 19
Registriert: Do Feb 02, 2012 3:08 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron