Performace Optimierung

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Performace Optimierung

Beitragvon Micki » Sa Aug 20, 2016 6:22 am

Ich weiß nicht ob das hier oder besser im Bugtracking aufgehoben ist daher erst mal hier ggf. mitteilen das ich es verschiebe.
Ich habe für die Java Maschine 64 Bit 6 GB Ram 4 Kerne und win Server 2012.
Derzeit 14,2 Mio Dokumente im Index und Running crawls (344).
Ich plane über eine Software crawls zu submitten. Derzeit dauert die Bearbeitung eines neuen Submitts via Expertcrawl Forms mindestens 17 Minuten.
Meine Frage kann man da was optimieren das das schneller verarbeitet wird? Die Anwendung die ich geschrieben habe würde nämlich zeitweise die Jobs im 3 Sekunden Rhythmus raus hauen.
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon sixcooler » Sa Aug 20, 2016 1:20 pm

Hallo Micki,

irgendwo hattest Du ja schon mal davon geschrieben. Ich kann mir nocht nicht vorstellen was da an einem Crawlstart so lange dauern sollte.
Hast Du ein Beispiel, das man sich mal ein Bild davon machen kann?

Vu, sixcooler.
sixcooler
 
Beiträge: 486
Registriert: Do Aug 14, 2008 5:22 pm

Re: Performace Optimierung

Beitragvon Micki » So Aug 21, 2016 7:36 am

Hallo Sicoole,
kann sein ich vermute auch, das es nicht ein generelles yacyproblem ist eher eins meiner Einstellungen.
Habe einen Exprtcrawl mit volgenden Parametern:
http://www.altenhilfe-augsburg.de
https://www.pflege.de
http://www.jameda.de
http://www.kursana.de

Crawltiefe 6

Dauer 12 Minuten von Neuer Crawl job starten drücken bis die Crawlerüberwachungsseite die erfolgreiche Submittung meldet.
Subitt Start erfolgt auf einer andern Maschine denn der Maschine auf der yacy läuft.

Noch ein Hinweis. Ich konnte beobachten, dass nach ca. 6 bis 8 h ein Neustart fällig ist weil in den Browserfenstern nichts mehr angezeigt wird.

Nachtrag:
ich verwende derzeit den Proxy um mal testweise die Ergebnisse meines Tools in yacy rein zu bekommen. Das funktioniert so leidlich und nicht so wie ich es gerne hätte.
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon TmoWizard » So Aug 21, 2016 10:53 am

Hallo Micki!

Micki hat geschrieben:Crawltiefe 6

Dauer 12 Minuten von Neuer Crawl job starten drücken bis die Crawlerüberwachungsseite die erfolgreiche Submittung meldet.
Subitt Start erfolgt auf einer andern Maschine denn der Maschine auf der yacy läuft.

Noch ein Hinweis. Ich konnte beobachten, dass nach ca. 6 bis 8 h ein Neustart fällig ist weil in den Browserfenstern nichts mehr angezeigt wird.


Dir ist schon klar, daß eine Crawltiefe von 6 ziemlich heftig ist, oder? Als einfaches fiktives Beispiel hat jede Seite 10 Links, welche YaCy dann crawlt:

  • Startseite = Tiefe 0 = 0 Links, YaCy crawlt nur die angegebene Seite
  • Tiefe 1 = 1 * 10 = 10 Links
  • Tiefe 2 = 10 * 10 = 100 Links
  • Tiefe 3 = 100 * 10 = 1.000 Links
  • Tiefe 4 = 1.000 * 10 = 10.000 Links
  • Tiefe 5 = 10.000 * 10 = 100.000 Links
  • Tiefe 6 = 100.000 * 10 = 1.000.000

1.000.000 Links bei einer Tiefe 6 und nur 10 Links pro Seite, da YaCy ja von allen Seiten alle Links crawlt! Da sind dann ziemlich viele doppelt oder mehrfach dabei, aber das weiß dein YaCy noch nicht. Als krasses Beispiel nimmst Du dann die englische Wikipedia, in ein paar Jahren dürfte dein YaCy dann mit dem Crawlen fertig sein...

Es braucht nur eine der gecrawlten Seite gleich auf der Crawltiefe 1 einen Link zur Wikipedia haben, dann wird sich dein Server freuen! Es dürfte also einleuchtend sein, warum das bei dir so lange dauert. Das von dir angegebene Portal "Kursana" z. B. hat unten im Footer etliche Links zu fremden Seiten, da geht es also schon los. "jameda" verlinkt sogar zu "Burda Digital GmbH", Facebook, Twitter und noch ein paar anderen Seiten, da kommt so einiges zusammen!

Eine Crawltiefe von 6 ist eindeutig übertrieben, 2 - 3 ist vollkommen ausreichend. Du kannst ja spaßeshalber mit deiner eingestellten Crawltiefe mein Castle indexieren, ich selbst mach das jedenfalls garantiert nicht!

Bedenke, daß viele Seiten wesentlich mehr als nur die fiktiven 10 Links zu anderen Seiten haben und welche Auswirkungen das auf dein YaCy hat:

  • Der Crawl kann ewig dauern da
  • YaCy den ganzen Index nach bereits vorhandenen Seiten durchforsten und
  • mit anderen Peers abgleichen muß
  • Dein (?) Server wird dadurch stark belastet

Das dürfte dann auch der Grund sein, warum das Submitten bei dir so lange benötigt! Probier das doch einfach mal mit einer geringeren Crawltiefe aus, vielleicht habe ich mit meiner Vermutung ja recht.

Edit: Eigentlich finde ich es ja gut, wenn Du deinen Index so extrem ausbauen willst. Wenn ich mir nämlich den derzeitigen Gesamtindex so betrachten, dann hängen seit einer Ewigkeit irgendwo bei ~4.000.000.000 Dokumenten fest und das ist einfach zu wenig! :cry: Mir scheint es so zu sein, daß zu wenig Werbung für YaCy betrieben wird. Es machen einfach nicht genügen Leute mit bzw. indexieren die vorhandenen Peers nicht genug.

Laut meiner "http://192.168.178.20:8090/Network.html" sind es derzeit 169 aktive Senior-, 877 passive Senior- und 1.130 Juniorpeers, der Index könnte also bedeutend größer sein! Da laufen einige "Aktive Principal and Senior Peers" keine Ahnung wie lange und dann kommen die nicht einmal auf 100.000 Dokumente. :o

Ich indexiere ja auch nicht mehr so wie bei meiner letzten Installation von YaCy, mein Rechner schafft das einfach nicht so wie ich das gerne hätte. Immerhin muß ich mit dem Ding ja noch arbeiten können, da ich leider keinen eigenen Server dafür habe...

Hm...

Da steht doch noch ein alter Rechner hier! Mal sehen, ob ich damit was anfangen kann! Ist es eigentlich möglich, den Index von einem Rechner auf einen Anderen zu übertragen? Wobei das auch egal wäre, da der noch nicht so groß ist. Aber eventuell kann ich mit der Kiste ja was anfangen, das würde auch mein Arbeitstier hier entlasten!


Grüße nun aus Augsburg/Firnhaberau

Mike, TmoWizard
TmoWizard
 
Beiträge: 94
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Performace Optimierung

Beitragvon Micki » So Aug 21, 2016 2:23 pm

Hallo Mike,
danke für Deine Tipps. Mir wird da einiges klarer.
Das es im Index über die 4 Billionen nicht bzw. nur zäh raus geht wundert mich nicht. Ich denke hier stößt die Architektur des Ganzen an Grenzen bzw. Abfragen werden unperformant. Ich habe auch den Eindruck das den Peer privat schalten etwas beim Indexieren bringt.
Ich teste mal die 2er Tiefe.
Ach scheint mir der Proxy ein guter Weg das Indexieren zu verbessern. Mein Tool schiebt die Domains zum Cralen derzeit über den Proxy rein. Allein heute zwischen 8.00 und 11 Uhr ca. 11224 neue Dokumente. Leider muss dafür aber der Index am Wochenende ohne meinen Peer auskommen.
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon Micki » So Aug 21, 2016 2:46 pm

Ich habe auch bei Google Recherchen festgestellt, dass gesuchte Infos oft mehrere Ebenen unter der Startseite oft erst zu finden sind.
Was jeder einzelne machen kann ist die Proxifunktion von yacy zu nutzen um den eigenen Idex und damit den ganzen Index zu verbessern.

en.wikipedia.org 249590
de.wikipedia.org 150101
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon TmoWizard » So Aug 21, 2016 2:57 pm

Hi Miki!

Micki hat geschrieben:Hallo Mike,
Das es im Index über die 4 Billionen nicht bzw. nur zäh raus geht wundert mich nicht. Ich denke hier stößt die Architektur des Ganzen an Grenzen bzw. Abfragen werden unperformant. Ich habe auch den Eindruck das den Peer privat schalten etwas beim Indexieren bringt.


Ähem.. 4.000.000.000 sind aber keine Billionen, sondern 4 Milliarden. Bei 4 Billionen Dokumenten hätten wir wohl mehr im Index wie alle anderen Suchmaschinen zusammen! :lol:

Micki hat geschrieben:Ach scheint mir der Proxy ein guter Weg das Indexieren zu verbessern.


Das hat sich bei mir erledigt, da ich hier inzwischen aus verschiedenen Gründen HAVP als Proxy verwende.

Micki hat geschrieben:Mein Tool schiebt die Domains zum Cralen derzeit über den Proxy rein. Allein heute zwischen 8.00 und 11 Uhr ca. 11224 neue Dokumente. Leider muss dafür aber der Index am Wochenende ohne meinen Peer auskommen.


Ich verstehe hier dein Vorgehen nicht so ganz, denn einen Crawl kann man ja auch über die entsprechende Benutzeroberfläche anstoßen:

http://192.168.178.20:8090/CrawlStartExpert.html

Das geht auch von einem anderen Rechner im Netzwerk, ein zusätzliches Tool ist doch dafür gar nicht notwendig! :?:

ach ja, auf dem vorhin erwähnten Rechner installiere ich gerade einen Ubuntu Server. Scheint zu funktionieren, allerdings ist 1 GB RAM wohl etwas wenig für YaCy! Mal sehen, ob ich das überhaupt zum Laufen bekomme. Zumindest der Server selbst läuft ja schon mal und macht gerade Updates...
TmoWizard
 
Beiträge: 94
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Performace Optimierung

Beitragvon Micki » So Aug 21, 2016 3:05 pm

Weiterer Grund warum im Index kaum was vorwärts geht ist vermutlich, wenn die Zeit die für das Prüfen ob eine Seite im allgemeinen Index schon ist größer wird, als die Zeit die man zur Indexierung benötigt, wird es auch problematisch.
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon Micki » So Aug 21, 2016 5:07 pm

Ich verstehe hier dein Vorgehen nicht so ganz, denn einen Crawl kann man ja auch über die entsprechende Benutzeroberfläche anstoßen:

http://192.168.178.20:8090/CrawlStartExpert.html

Das geht auch von einem anderen Rechner im Netzwerk, ein zusätzliches Tool ist doch dafür gar nicht notwendig! :?:



Wenn du manuell anstoßen willst sicher. Ich habe ein nettes Java Programm geschrieben, was systematisch Buchstabenkombinationen mit Tdl's kombiniert und wenn es die Kombi gibt sie über den "Proxy schleift".

ach ja, auf dem vorhin erwähnten Rechner installiere ich gerade einen Ubuntu Server. Scheint zu funktionieren, allerdings ist 1 GB RAM wohl etwas wenig für YaCy! Mal sehen, ob ich das überhaupt zum Laufen bekomme. Zumindest der Server selbst läuft ja schon mal und macht gerade Updates...


Wird sicher erst mal laufen, aber sobald die Datenbank groß wird in die Knie gehen.
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon TmoWizard » So Aug 21, 2016 5:13 pm

Micki hat geschrieben:Weiterer Grund warum im Index kaum was vorwärts geht ist vermutlich, wenn die Zeit die für das Prüfen ob eine Seite im allgemeinen Index schon ist größer wird, als die Zeit die man zur Indexierung benötigt, wird es auch problematisch.


Nun, so besonders lang dürfte das nicht benötigen nehme ich mal an. Der oben erwähnte alte Rechner läuft nun als Ubuntu-Server nur mit YaCy, das Crawlen meines Blogs hat bei einer Crawltiefe 2 nur ein paar Minuten benötigt. Der hat sogar nur 768 MB RAM, scheint YaCy aber nicht wesentlich zu beeinflussen. Es ist dort nur unwesentlich langsamer wie auf meinem normalen Arbeitsrechner. Das bedeutet für mich, daß ich diesen Rechner zumindest etwas entlasten und YaCy von dort deinstallieren kann.

Mal gucken, ob ich für den alten/neuen "YaCy-Server" noch etwas zusätzliches RAM auftreiben kann!
TmoWizard
 
Beiträge: 94
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Performace Optimierung

Beitragvon Micki » So Aug 21, 2016 7:14 pm

Na ja Ram bei e-bay ;)
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm

Re: Performace Optimierung

Beitragvon sixcooler » So Aug 21, 2016 9:14 pm

Hallo,

die Ausführungen zur Indextiertiefe sind schon richtig, haben nur mit der Zeit zum Anlegen des Crawl weniger zu tun.
Ist die Maschine ansonsten schwer am Arbeiten?
Es kann gut sein das einfach zu viel anderes an Tasks ansteht und es daher so lange dauert.

Cu, sixcooler.
sixcooler
 
Beiträge: 486
Registriert: Do Aug 14, 2008 5:22 pm

Re: Performace Optimierung

Beitragvon Micki » Mo Aug 22, 2016 4:44 am

Ach noch zum Tiefenproblem: Warum kopiert hier yacy nicht Google. Die haben das Problem sehr geschickt mit 2 Bots gelöst. 1 Bot quasi nur auf ebene 1 Domains sammeln und Links auf der ersten Seite und einen 2 Bot (deepbot) der dann in die Tiefen der Seiten abgetaucht ist.
Micki
 
Beiträge: 86
Registriert: Sa Feb 21, 2015 10:38 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 2 Gäste

cron