Domain-Crawling beschränken (Auto-Dom-Filter)

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Domain-Crawling beschränken (Auto-Dom-Filter)

Beitragvon m1k3ga » Di Mär 23, 2010 5:30 pm

Ich versuche gerade, die Cross-Domain-Suche einzuschränken.
Als Beispiel nehme ich dmoz.org und möchte dieses auf die Tiefe 4 indizieren (Crawling Depth = 4).
Dabei möchte ich, daß der Crawler alle Referenzen, die auf andere Domains zeigen, nur bis zu einer Tiefe von 1 übernimmt.

Beispiel: dmoz.org -> heise.de -> sun.com -> java.net
Dabei soll dann der Crawler dmoz.org indizieren und auch heise.de, aber von Links, die von heise ausgehen (sun.com) nicht weiter verfolgen.

Ich dachte, ich könnte das mit dem Parameter "Auto-Dom-Filter" regulieren (Use Depth = 1).

Im Crawl Profile Editor finde ich für den "Crawl thread" zwar den Task "dmoz.org" mit "Auto Filter Content", wo auch einige Domains aufgelistet werden,#
aber ich erhalte keine Suchergebnisse von den referenzierten Domains.

Verstehe ich jetzt die Parameter falsch oder was muss ich einstellen, um obige Einschränkung beim Crawling zu machen?

danke schonmal,
mike
m1k3ga
 
Beiträge: 30
Registriert: Di Apr 29, 2008 5:23 pm

Re: Domain-Crawling beschränken (Auto-Dom-Filter)

Beitragvon Orbiter » Di Mär 23, 2010 8:31 pm

der auto-dom-filter(x) legt einen Filter auf die Teil-Crawls, die bei Tiefe x erreicht werden. Üblicherweise ist hier x = 1 und der Crawlstart eine Linkliste. Dann wird jeder Teilcrawl zu den Links in der Liste auf die Domäne des Links eingeschränkt, d.h. das ist dann wie viele domänenbeschränkte Einzelcrawls.

Was du wolltest geht damit nicht....
Man bräuchte eine ganz neue Logic die diese Funktion die du brauchst steuerst. Sinnvoll ist das ja irgendwie. Muss mal überlegen. Leider bin ich die nächsten 10 Tage landunter, aber merke mir das mal.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Domain-Crawling beschränken (Auto-Dom-Filter)

Beitragvon m1k3ga » Mi Mär 24, 2010 8:20 am

danke für die antwort, das hilft mir schon mal weiter, da ich dachte ich wäre zu blöd, die konfiguration richtig einzustellen ;)

grüße
mike
m1k3ga
 
Beiträge: 30
Registriert: Di Apr 29, 2008 5:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron