Re-Crawl?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Re-Crawl?

Beitragvon BododasBroetchen » So Jun 18, 2017 9:05 pm

Eigentlich gehört es ja zu jeder Suchmaschine, dass sie die im Index befindlichen Seiten regelmäßig besucht und den Suchindex aktualisiert. Macht Yacy das von Hause aus oder nicht? Ich habe das bisher jedenfalls nicht beobachten können.
BododasBroetchen
 
Beiträge: 5
Registriert: Di Mär 25, 2014 9:26 am

Re: Re-Crawl?

Beitragvon promocore » Mo Jun 19, 2017 10:56 am

Ein Re-Crawl wird per default nicht durchgeführt, kann aber aktiviert werden:
auf er Seite IndexReIndexMonitor_p.html befindet sich die Funktion.
promocore
 
Beiträge: 71
Registriert: Mo Feb 08, 2016 8:50 pm

Re: Re-Crawl?

Beitragvon stephan » Mo Jul 10, 2017 6:44 pm

Ich suche auch nach einer Lösung zum periodischen re-indexieren.
Auf der Seite IndexReIndexMonitor_p.html gibt es in der Tat eine [start recrawl job now] Schaltfläche.
Fragen:
Kann man diese Funktion auch in einem File konfigurieren, z.B. im yacy.init?
Ist autocrawl configuration im yacy.init ein möglicher Kandidat?
stephan
 
Beiträge: 1
Registriert: Mo Jul 10, 2017 6:24 pm

Re: Re-Crawl?

Beitragvon webproject » Fr Aug 04, 2017 4:53 am

stephan hat geschrieben:Ich suche auch nach einer Lösung zum periodischen re-indexieren.
Auf der Seite IndexReIndexMonitor_p.html gibt es in der Tat eine [start recrawl job now] Schaltfläche.
Fragen:
Kann man diese Funktion auch in einem File konfigurieren, z.B. im yacy.init?
Ist autocrawl configuration im yacy.init ein möglicher Kandidat?


Ich denke, autocrawl ist dafür nicht sehr gut geeignet. Autocrawl ist eher dazu gedacht, neue URLs zu aus vorhandenen Dokumenten zu extrhieren und dann zu indizieren.
Dadurch wird der Index aber immer größer, was beim Re-Indizieren überschaubar wäre.

Ein einfacher Ansatz wäre z.B. beim Suchen oder als Hintergrund-Job das Feld fresh_date_dt prüfen, ob < X Tage/Wochen/Monate, und wenn ja, die URL in die lokale Crwal-Queue legen.

Könnte man ja mal als Feature-Request hier einstellen.
webproject
 
Beiträge: 9
Registriert: So Jul 03, 2016 5:47 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron