yacy recrawl vs maxAge

Ereignisse, Vorschläge und Aktionen

yacy recrawl vs maxAge

Beitragvon liebel-lab » Fr Nov 14, 2008 9:29 am

was haltet ihr von der idee anstatt immer und immer wieder recrawl zu starten einfach ein maxage fuer eine seite zu definieren?
wenn ein link aelter als x (~30?) tage ist wird er automatisch ueberprueft und weiter mit einem filter oder einer max tiefe 2 gecrawlt.

als globaler crawl (re-) startbaum finde ich die idee unsere shared bookmarks zu verwenden immer noch eine sehr gute idee...:-)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: yacy recrawl vs maxAge

Beitragvon Orbiter » Fr Nov 14, 2008 10:31 am

das ist eine ganz gute Idee! Allerdings geht das technisch nicht so einfach für maxages einzelner Seiten, sondern besser für den Gesamtindex. Über einen Seiten- oder Crawlbezogenen Maxage denke ich mal nach, hier gibt es Verbindungen zu einem im englischen Forum vorgeschlagenen Crawl-Key, über den man nur Seiten suchen kann, die mit einem entsprechenden Tag beim Crawl gestartet wurden. Solche Tags könnte man dann auch benutzen, um zu löschende URLs zu identifizieren, diese kann man aber leider nicht so effizient löschen wie wenn man für den gesamten Index einen Maxage setzt.

für die Seiten des Re-Crawl könnte man den noch zu erstellenden DHT für globales Double-Check benutzen, dann 'konvergiert' der Index allmählich zu Doubletten-freien Daten.

An die recrawl-URLs einen neuen Baum dran zu setzten wäre kein Problem, konfigurationssache.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron