Thematische Crawls: "Folge Links von Seiten die FOO enthalt"

Ideen und Vorschläge sind willkommen.

Thematische Crawls: "Folge Links von Seiten die FOO enthalt"

Beitragvon Irdran » So Mär 25, 2012 9:27 pm

Hallo,

ich möchte gerne themenspezifische Crawls starten. Also zum Beispiel "Indexiere alles zum Thema >Foo<". Derzeit kenne ich folgende Ansätze dazu:
  • Domainspezifsche Crawls: Ich sage Yacy von Hand welche Domains sich mit dem Thema beschäftigen. Das Problem: Es gibt unzählige Domains die sich mit einem Thema beschäftigen. Und zusätzlich gibt es noch viel mehr Domains, die sich nur zum Teil damit beschäftigen, und noch viel viel mehr Domains, die das Thema Foo nur irgendwo erwähnen. Das alles von Hand einzutragen ist unmöglich. Daher schließt diese Option leider aus.
  • Domainübergreifende Crawls: Ich starte einen Crawl auf "www.foo.com" und "www.foo-forum.com" und ein paar ähnlichen Domains und beschränke diese nicht auf die Domains, sondern in der Tiefe. Dadurch crawlt Yacy auch andere Domains zu dem Thema, ohne dass ich sie von Hand eingeben muss. Das Problem: Praktisch alle Domains enthalten schon auf der Startseite Links zu ähnlichen oder auch gänzlich anderen Themen. Dadurch wird die Suche viel zu breit gefächert, und ich muss die Tiefe auf sehr kleine Werte setzen, wodurch nichtmal die Startdomains komplett gecrawlt werden. Daher schließt auch diese Option leider aus. :-(
  • Crawls mit URL-Filter: Ich starte einen Crawl auf "www.foo.com" und ein paar andere handverlesene Seiten und beschränke diesen Crawl weder auf die Startdomains, noch in der Tiefe, sondern benutze einen URL-Filter wie ".*foo.*". Damit crawlt Yacy nicht nur die Startdomains, bleibt aber andererseits auch auf das Thema fokussiert. Aber leider gibt es viele interessante Seiten über "Foo", die "Foo" nicht in der URL haben. Zum Beispiel weil die Seiten auf der Domain durchnummeriert sind, oder andere generierte IDs haben. Oder weil das Thema "Foo" zwar zentraler Teil der Seite ist, aber der Autor sich dennoch für eine URL entschieden hat, die "Foo" nicht enthält. Oder weil "Foo" nur eines von mehreren Themen auf der Seite ist. Oder weil "Foo" nur am Rande erwähnt wird. Aber all diese Seiten möchte ich dennoch crawlen, da sie oft wertvolle Informationen zum Thema "Foo" enthalten können.
Daher wünsche ich mir eine Art "Stichwort-Filter".
Dieser ist wie der URL-Filter ein Regulärer Ausdruck und funktioniert so, dass nur Links von der aktuellen Seiten weiterverfolgt werden, wenn diese dem Stichwort-Filter entspricht. Wenn die aktuelle Seite nicht zu dem Filter passt, beschäftigt sie sich anscheinend nicht mit dem gewünschten Thema und die ausgehenden Links dieser Seite werden nicht weiterverfolgt. Entspricht die Seite jedoch dem Stichwort-Filter, werden die Links dieser Seite normal gecrawlt / weiterverfolgt. Dadurch wird der Crawl einerseits wirksam auf das gewünschte Thema beschränkt, (vorausgesetzt man wählt keine zu allgemeinen Stichworte) und findet andererseits auch Seiten, die den gewünschten Begriff nicht in der URL enthalten.
Eine Seite entspricht dem Stichwort-Filter, wenn das Stichwort irgendwo auf der Seite vorkommt. Egal ob im Text, in den Stichworten (die man in den Metatags angibt), in der URL eines Links oder auch nur in den Metadaten eines verlinkten Bildes. (Okay, das letztere könnte schwierig sein der Seite selber zuzurechnen, daher könnte ich darauf vorerst verzichten. ;-) )

Was meint Ihr? Wäre das auch für euch nützlich? Oder ist mein Wunsch zu speziell? Ist das technisch machbar, oder zu aufwendig? Würdet ihr einen anderen Ansatz wählen?
Irdran
 
Beiträge: 30
Registriert: Di Feb 19, 2008 12:33 pm

Re: Thematische Crawls: "Folge Links von Seiten die FOO enth

Beitragvon Lotus » Mo Mär 26, 2012 2:39 pm

Also Stichwörter als Abbruchbedingung der Crawltiefe?

Wenn die geladene Seite keines der Stichwörter enthält: keinen weiteren Links folgen.
Ansonsten: folge allen Links dieser Seite.

Der Crawl ist dann beendet, wenn auf allen Seiten die noch geladen werden keines der Stichwörter enthalten ist.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Thematische Crawls: "Folge Links von Seiten die FOO enth

Beitragvon Irdran » Mo Mär 26, 2012 7:09 pm

Genau :-)
Irdran
 
Beiträge: 30
Registriert: Di Feb 19, 2008 12:33 pm

Re: Thematische Crawls: "Folge Links von Seiten die FOO enth

Beitragvon Orbiter » Di Apr 17, 2012 11:10 am

kann man machen, aber dann kommt noch eine weitere Sache hinzu:
- es wird eine weitere Crawltiefenbegrenzung benötigt, denn es könnte ja sein dass bei dieser Vorgehensweise dann das angegebene Pattern immer vorkommt!
- man könnte 2 Pattern nehmen: eine für folge-URLs und eine für den Inhalt der Seite auf denen die folge-URLs vorkommen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron