Vollständiger Seiten Crawl/Sitemap Lader

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Vollständiger Seiten Crawl/Sitemap Lader

Beitragvon Apollo19 » So Sep 25, 2011 10:23 pm

Wenn man via "Vollständiger Seiten Crawl/Sitemap Lader" einen Crawl startet, werden dann URLs die sich bereits im Index befinden ignoriert oder werden diese erneut gecrawlt?
Apollo19
 
Beiträge: 25
Registriert: So Sep 18, 2011 7:01 pm

Re: Vollständiger Seiten Crawl/Sitemap Lader

Beitragvon Orbiter » Di Sep 27, 2011 1:16 pm

es werden nur Seiten geladen die sich noch nicht im Index befinden. Ich weiss dass dies nicht zufriedenstellend ist, wenn man einen re-Crawl wünscht. Ich bin an überlegen wie ich den re-crawl parametriesierbar machen könnte. Vorstellbar wären folgende Einstellungen pro Crawl:
- Seiten nur laden wenn sie noch nicht existieren (so ist es jetzt)
- Seiten nur laden wenn deren Ladezeitpunkt älter ist als vorgegeben (festes Alter)
- Seiten nur laden wenn sie entsprechend Proxy-Cache Regel (TTL, time-to-live) als alt gelten.

Die TTL-Regel ist ein wenig schwierig und operiert mit einem Altersatribut X:
"eine Seite gilt als alt, wenn die Zeit seit dem letzen Laden größer ist als X mal die Zeitdifferenz zwischen letztem Laden und dem Dokumentendatum vom http Server"
X hat dann üblicherweise einen Wert von 0.5. Beispiel: wenn ich eine Seite von einem Server lade, die dort seit 2 Wochen nicht mehr geändert wurde, dann gilt sie in einer Woche als alt.
Die TTL-Regel ist der Standard für den Proxy.

Ideen für mehr als die 3 Regeln?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Vollständiger Seiten Crawl/Sitemap Lader

Beitragvon Apollo19 » Mi Sep 28, 2011 8:24 am

Orbiter hat geschrieben:es werden nur Seiten geladen die sich noch nicht im Index befinden. Ich weiss dass dies nicht zufriedenstellend ist, wenn man einen re-Crawl wünscht.


Ganz im Gegenteil. Ich finde das gut so. Wenn man eine Webseite komplett neu indizieren will, kann man das ja via "Crawl Start (Experte)" machen.
Apollo19
 
Beiträge: 25
Registriert: So Sep 18, 2011 7:01 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste