Separation Crawler/Indexer für Blacklists

Ideen und Vorschläge sind willkommen.

Separation Crawler/Indexer für Blacklists

Beitragvon surfvive » Fr Sep 13, 2013 11:47 am

Beim Versuch, möglichst zielgerichtete Indexierungen zu erreichen, stellt sich mir die Frage, ob eine Separation zwischen Crawler und Indexer in Bezug auf die Blacklists möglich wäre.
Eine für den Crawler erlaubte URL würde wie gehabt im Index landen. Eine Seite, die für den Indexer verboten ist, würde zwar gecrawlt werden (d. h. es werden neue URLs generiert), aber der Inhalt der ursprünglichen Seite wird nicht in den Index aufgenommen.
Das würde mMn helfen, Seiten zu finden, die selbst auf nicht inhaltstragenden Seiten verknüpft sind, ohne dabei jedoch den Index zu belasten.

Edit
Wenn ich die Terminologie richtig verstehe, ist das ganze schon beim Expert-Crawl manuell möglich(?) im Abschnitt des Document Filters (Index-Feeder).
surfvive
 
Beiträge: 23
Registriert: Do Mai 24, 2012 9:02 am
Wohnort: Hannover

Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron