Crawldauer [erledigt]

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawldauer [erledigt]

Beitragvon TmoWizard » Mo Apr 17, 2017 12:24 pm

Hallöchen zusammen,

ich hätte da interessehalber mal folgende Frage:

Wie lange könnte ein "Experten Crawl" bei der Standardeinstellung (einzige Ausnahme: es ist ein Principal-Peer) von YaCy ungefähr dauern?

Folgendes System ist gegeben:

  • FSC Esprimo E5615 SFF Athlon 64 3800+ @ 2,4GHz 4GB
  • 320GB SATA HDD Festplatte
  • Ubuntu Server 16.04.2 amd64
  • Java OpenJDK 8
  • YaCy 1.92009000
  • "Für JVM reservierter Speicher" = 3072 MByte
  • Anschluß ist 25/5 Mbit/s Glasfaser

Auf diesem Rechner bzw. "Server" läuft ansonsten nichts anderes, da ich ihn erst vor ein paar Tagen speziell für YaCy eingerichtet habe. Gecrawlt wird seit heute ca. 12:00 Uhr nur mein eigenes Blog, bei welchem es jedoch eine ziemliche Menge Links zu anderen Seiten gibt!

Wie geschrieben dient das nur der Interesse, da der Server 24/7 läuft und nur bei entsprechenden Updates neu gestartet werden muß.

Fröhliche Ostergrüße nun aus Augsburg

Mike, TmoWizard Bild
Zuletzt geändert von TmoWizard am Mo Apr 17, 2017 7:27 pm, insgesamt 1-mal geändert.
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer

Beitragvon TmoWizard » Mo Apr 17, 2017 7:26 pm

Ich antworte mir jetzt mal selbst:

Crawl wurde gerade beendet, also 20:11 Uhr. Das Ganze hat folglich bei einer Tiefe von 3 etwas über 8 Stunden gedauert, die Anzahl der Dokumente sind dabei von ~2.600 auf 124.464 gestiegen, das hat schon was! :mrgreen:

Nun muß ich mir nur meine alte Anleitung wieder zusammensuchen, so daß die Verbindung wieder per SSH verschlüsselt wird, da fühle ich mich dann doch wieder etwas wohler. Ein paar Teile habe ich schon und wenn ich fertig bin gibt es für YaCy und SSH unter Ubuntu ein entsprechendes Tutorial auf meinem Blog! Leider ist mir da ein spezieller Link abhanden gekommen, dauert also wohl ein paar Tage!


Schönen Abend wünsche ich noch allen!

Mike
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer [erledigt]

Beitragvon TmoWizard » Mo Jun 12, 2017 11:11 am

Noch einmal eine Frage dazu:

Ich nehme mir gerade eben (gestartet am Montag, 12. Juni 2017, 11:22:28 Uhr) noch einmal mein Blog vor, diesmal jedoch mit einer Crawl-Tiefe von 6! Da ich wie im OP geschrieben sehr viele Links habe nehme ich mal an, daß das "etwas" länger dauern könnte.

Da YaCy auf einem extra Rechner als Server läuft kann ich hierbei ungestört weiter arbeiten. Der Server scheint auch keine Probleme damit zu haben, YaCy crawlt fleißig vor sich hin.

Ich frage mich hier aber nun, was bei dieser Crawl-Tiefe am Ende für ein Index zusammen kommt. Ich habe zwar nur 455 Artikel und 11 Seiten, wohl aber ein paar tausend Links gesetzt!

Hierzu hätte ich nun ein paar Frage an euch:

Welche Crawl-Tiefe verwendet ihr denn so?

Ist es sinnvoll, wenn man eine größere Tiefe verwendet?

Bei der Einstellung wird ja gewarnt, daß man nicht unbedingt eine größere Tiefe wie 8 verwenden sollte.

Reicht solch ein Rechner wie mein erwähntes System überhaupt aus, um solch einen Index noch zu verarbeiten?

Wie oder wo habt ihr eigentlich euer YaCy installiert und welches Betriebssystem verwendet ihr hierfür?

Ach ja:

Wo bekommt man denn diese neuere Version von YaCy her: 1.920/09174?

Ich verwende auf dem erwähnten System das Debian-Package, ist das nicht mehr aktuell?

Bis jetzt scheint ja noch alles richtig zu laufen, auch die Suche über das Netzwerk funktioniert immer noch ohne Probleme. Die gerade mal 4 GB RAM in dem AMD 64 scheinen jedenfalls zu genügen, das ist schon mal ein gutes Zeichen!

Ich würde mich nun über entsprechende Antworten und Meinungen von euch freuen, ich führe nämlich ungern Selbstgespräche! ;)


Oh, noch was!

Für alle interessierten Teilnehmer hier mein Serverlein:

http://tmoyacy.yacy


Grüße aus Augsburg

Mike, TmoWizard
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer [erledigt]

Beitragvon promocore » Mo Jun 12, 2017 10:47 pm

Bei mir läuft Yacy auch unter Debian in einer VM mit 10GB Ram.
So große Crawltiefen habe ich bisher noch nicht gestartet, meistens indexiere ich einzelnde Domains.
Ich vermute mal, dass du etwas mehr RAM bräuchtest, wenn du so tief indexieren möchtest, aber genauer sieht man das später dann in den LOGs.
Die aktuelle Yacy Version lade ich immer von Github herunter
https://github.com/yacy/yacy_search_server
Hierfür unter Debian:
Code: Alles auswählen
git clone https://github.com/yacy/yacy_search_server

       Compiling YaCy:
              you need Java 1.7 or later and Apache Ant
              just compile: "ant clean all" - then you can "


sudo apt-get install ant
./startYACY.sh
promocore
 
Beiträge: 71
Registriert: Mo Feb 08, 2016 8:50 pm

Re: Crawldauer [erledigt]

Beitragvon TmoWizard » Di Jun 13, 2017 8:09 am

Hallo @promocore,

Du hast mir ja auf meinem anderen Thread ebenfalls geantwortet. Das mit der Crawl-Tiefe 6 bei 4 GB RAM funktioniert soweit, YaCy pausiert nur zwischendurch für einige Zeit und arbeitet dann weiter. Ich hatte hier ursprünglich einen alten Pentium mit gerade mal 768 MB RAM für YaCy, aber der hat sich ja leider verabschiedet. Das lief soweit auch ganz gut und ich hatte am Schluß über 15 Millionen Dokumente im Index, allerdings habe ich dort auch nie die Suchtiefe geändert!

Nun eine Frage:

Warum in einer VM, was bringt das und was hast Du da für ein System??

Auf jeden Fall dürfte bei der Menge RAM die Crawl-Tiefe kaum mehr eine Rolle spielen, wenn es schon auf meinem alten ESPRIMO mit 4 GB funktioniert! Daß ich mehr RAM bräuchte sehe ich ein, geht aber bei der alten Kiste leider nicht. Die 4 GB sind laut Hersteller das Maximum für das Mainboard, der ist eben nicht mehr ganz jung! Er Läuft, das genügt mir.

Die aktuelle Yacy Version lade ich immer von Github herunter


Oh, also an der Paketverwaltung vorbei! Ne, das fällt auf dem Server aus. Hier achte ich doch eher auf Stabilität, nicht so wie auf meinem Arbeitstier! So heißt es also warten, bis die Debian-Pakete auf den neueren Stand gehievt werden, schade. :cry: Ich achte zwar immer auf Aktualität, aber in dem Fall ist mir die Stabilität wichtiger. Trotzdem danke für die Info!

Morgendliche Grüße aus TmoWizard's Castle zu Augsburg

Mike, TmoWizard
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer [erledigt]

Beitragvon promocore » Di Jun 13, 2017 9:36 am

Ich habe VMs, um bestimmte Anwendungen von meinem lokalen Netzwerk auszusperren. So gesehen, laufen bei mir alle Dienste für das WWW in einem extra Netzwerk ähnlich einem DMZ. Hardware ist ein Xeon 1225 V3 mit 32GB Ram. Zusätzlich ist natürlich auch z.B. ein Umzug auf einen anderen Storage oder auch Snapshot funktionen, grad zum testen von Software, sehr angenehm.

Yacy ist eine Java Anwendung, von daher wird nur ein Javaprozess gestartet, der im System keine "installation" benötigt. Abgesehen davon, dass die Zwischenversionen Beta sind, läuft Yacy genauso gut/schlecht wie die stable.
promocore
 
Beiträge: 71
Registriert: Mo Feb 08, 2016 8:50 pm

Re: Crawldauer [erledigt]

Beitragvon TmoWizard » Do Jun 15, 2017 8:53 am

Derzeitiger Status meines YaCy: Es wird immer noch gecrawlt, das wird also wohl eine längere Geschichte! Ich hätte jetzt nicht erwartet, daß das so lange dauert.

@promocore:

Praktisch ist das mit den VMs schon, auf meinem ollen Rechner bräuchte das aber zu viel RAM und Power. YaCy läuft ja auf einem extra Rechner, eine VM ist hier folglich nicht notwendig. Hier auf dem Arbeitstier läuft dann noch der HAVP und ein paar andere Dinge, mein Rechner hat also schon ohne VM einiges zu tun!

Aus Gründer der Sicherheit verwende ich hier aber verschiedene Browser, mein YaCy administriere ich z. B. mit QupZilla, während mein normaler Browser der SeaMonkey ist. I2P geht dann über den Firefox und für andere Dinge kommt dann der Chromium zum Einsatz, so daß ich hier immer getrennte Instanzen habe. Ich habe zum Glück ja eine große Auswahl, so daß ich mir das aussuchen kann! ;) Das ist zwar nicht so sicher wie eine VM, aber für meine Zwecke genügt es.
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer [erledigt]

Beitragvon promocore » Do Jun 15, 2017 11:43 pm

Eine VM ist ja nur ein Mittel, wenn man mehrere Rechner auf einen Rechner hosten möchte.
Verschiedene Browser zu nutzen, bringt höchsten etwas wegen den Cockies, nach außen hin macht das mehr oder weniger kaum einen unterschied.

Primär geht es mir darum, dass man komplette unterschiedlich Netze hat, wo bestimmte Rechner nicht in mein Home Netz kommen. Wenn also jemand mein Yacy hackt und sogar Admin Rechte bekäme, würde für mich keine große Welt zusammen brechen.
promocore
 
Beiträge: 71
Registriert: Mo Feb 08, 2016 8:50 pm

Re: Crawldauer [erledigt]

Beitragvon TmoWizard » Fr Jun 16, 2017 7:43 am

promocore hat geschrieben:Eine VM ist ja nur ein Mittel, wenn man mehrere Rechner auf einen Rechner hosten möchte.


Wie geschrieben braucht es dafür aber auch einen moderneren Rechner wie meinen, der hat so schon genug zu kämpfen!

promocore hat geschrieben:Verschiedene Browser zu nutzen, bringt höchsten etwas wegen den Cockies, nach außen hin macht das mehr oder weniger kaum einen unterschied.


Nicht nur hierfür, auch für Anmeldungen an verschiedenen Diensten ist das praktisch. Wie erwähnt verwalte ich z. B. mein YaCy mit QupZilla, so daß andere Browser auch das entsprechende Paßwort nicht kennen.

promocore hat geschrieben:Primär geht es mir darum, dass man komplette unterschiedlich Netze hat, wo bestimmte Rechner nicht in mein Home Netz kommen. Wenn also jemand mein Yacy hackt und sogar Admin Rechte bekäme, würde für mich keine große Welt zusammen brechen.


Das wäre zwar wirklich Pech, aber von meinem YaCy aus kann keiner auf meinen normalen Rechner zugreifen. Ich möchte mein Kubuntu jetzt nicht über den Klee loben, aber ich habe das doch relativ gut abgesichert. Von außen nicht erreichbar und für verschiedene Dienste auch verschiedene Browser, zusätzlich noch überall ein paar Add-ons zu Sicherheit, wobei das zumindest bei QupZilla nicht notwendig wäre. Der ist ja nur per HTTPS mit YaCy verbunden, direkt in's Internet bin ich damit noch nie gegangen!

Der Firefox ist nur für I2P zuständig, Chromium für Google Maps und ein paar andere Dinge. Der Standard ist bei mir aber SeaMonkey zum Browsen, E-Mail, IRC und XMPP, während für andere Chats eben wieder entsprechende Programme zuständig sind. Ein ähnliches System habe ich früher schon unter Windows verwenden, bis jetzt habe ich ganz gute Erfahrungen damit gemacht!

Für Paßwörter verwende ich übrigens die entsprechenden Manager in den Browsern, so daß kein Browser die Paßwörter des anderen kennt. Ein extra Paßwort-Manager kommt hier bestimmt nicht zum Einsatz, das ist mir viel zu unsicher!

Übrigens bin ich wegen YaCy gerade schockiert, denn der Crawl ist immer noch nicht beendet! Was ich hierbei nicht verstehe ist folgende Meldung:

Crawling wurde pausiert! Wenn das Crawling automatisch pausiert wurde, prüfen Sie bitte Ihrer Festplattenspeicher.


Es sind hier laut YaCy über 200 GB frei, diese Meldung ist also kompletter Unfug! Ich verstehe ja, wenn YaCy beim Crawlen wegen dem RAM meckert, aber die Festplatte?

Nun... auf jeden Fall bin ich gespannt, wie lange dieser spezielle Crawl noch dauert. Mir kommt das schon etwas lange vor und ich frage mich hier, ob das so normal ist! :?:
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer [erledigt]

Beitragvon TmoWizard » So Jun 18, 2017 10:26 am

Neue Statusmeldung zu meinem Crawl:

Er läuft immer noch! :o

Ich frage mich nun allmählich ob das vielleicht ein Fehler war mit dieser Crawl-Tiefe, das ist schon heftig. Immerhin ist jetzt eine ganze Woche vergangen, das kommt mir schon "etwas" verdächtig vor oder ist das normal? :?: Die erste Suchtiefe von 3 hat ja gerade mal 8 Stunden gedauert, jetzt sind aber bereits 7 Tage vergangen!

Besonders ergiebig scheint mir der Crawl auch nicht zu sein, insgesamt habe ich jetzt gerade mal ~ 7,4 Millionen Dokumente im Index. Das ist meiner Ansicht nach eigentlich nicht viel, wenn man die bisherige Dauer des Crawl betrachtet! Ich laß jetzt einfach mal weiterlaufen, irgendwann muß mein YaCy ja mal damit fertig werden.

Trotzdem würde es mich mal interessieren, wie lange das (noch) dauern könnte. Schließlich möchte ich ja noch mehr Seiten crawlen, dann aber garantiert nicht mehr mit dieser Suchtiefe! :roll: Hat hier vielleicht jemand Erfahrung damit?
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Crawldauer [erledigt]

Beitragvon promocore » Mo Jun 19, 2017 10:59 am

Wie lange ein Crawl braucht, kann man nicht sagen. Dafür gibt es einfach zu viele Variablen.
Alternativ hilft immer eine Blick in die Log files, falls einem etwas komisch vorkommt.
promocore
 
Beiträge: 71
Registriert: Mo Feb 08, 2016 8:50 pm

Re: Crawldauer [erledigt]

Beitragvon TmoWizard » So Jul 09, 2017 5:42 am

Nur ein kurzer Hinweis zu meinem Versuch:

Nach ca. 10 Tagen habe ich den Crawl abgebrochen, da ich sonst nicht mehr vernünftig mit YaCy arbeiten konnte! :? Ansonsten läuft mein kleiner "Server" einwandfrei und auch mein Index wächst fleißig weiter, für die alte Kiste sogar relativ flott. Ich muß zwar beim crawlen aufpassen und darf die Suchtiefe nicht höher einstellen, aber die 3 genügt ja eigentlich auch.

Nun wünsche ich allen noch einen sonnigen Sonntag

Mike
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron