Seite 1 von 1

Re-Crawl?

BeitragVerfasst: So Jun 18, 2017 9:05 pm
von BododasBroetchen
Eigentlich gehört es ja zu jeder Suchmaschine, dass sie die im Index befindlichen Seiten regelmäßig besucht und den Suchindex aktualisiert. Macht Yacy das von Hause aus oder nicht? Ich habe das bisher jedenfalls nicht beobachten können.

Re: Re-Crawl?

BeitragVerfasst: Mo Jun 19, 2017 10:56 am
von promocore
Ein Re-Crawl wird per default nicht durchgeführt, kann aber aktiviert werden:
auf er Seite IndexReIndexMonitor_p.html befindet sich die Funktion.

Re: Re-Crawl?

BeitragVerfasst: Mo Jul 10, 2017 6:44 pm
von stephan
Ich suche auch nach einer Lösung zum periodischen re-indexieren.
Auf der Seite IndexReIndexMonitor_p.html gibt es in der Tat eine [start recrawl job now] Schaltfläche.
Fragen:
Kann man diese Funktion auch in einem File konfigurieren, z.B. im yacy.init?
Ist autocrawl configuration im yacy.init ein möglicher Kandidat?

Re: Re-Crawl?

BeitragVerfasst: Fr Aug 04, 2017 4:53 am
von webproject
stephan hat geschrieben:Ich suche auch nach einer Lösung zum periodischen re-indexieren.
Auf der Seite IndexReIndexMonitor_p.html gibt es in der Tat eine [start recrawl job now] Schaltfläche.
Fragen:
Kann man diese Funktion auch in einem File konfigurieren, z.B. im yacy.init?
Ist autocrawl configuration im yacy.init ein möglicher Kandidat?


Ich denke, autocrawl ist dafür nicht sehr gut geeignet. Autocrawl ist eher dazu gedacht, neue URLs zu aus vorhandenen Dokumenten zu extrhieren und dann zu indizieren.
Dadurch wird der Index aber immer größer, was beim Re-Indizieren überschaubar wäre.

Ein einfacher Ansatz wäre z.B. beim Suchen oder als Hintergrund-Job das Feld fresh_date_dt prüfen, ob < X Tage/Wochen/Monate, und wenn ja, die URL in die lokale Crwal-Queue legen.

Könnte man ja mal als Feature-Request hier einstellen.