Kann man Stopwords als "Gowords" umfunktionieren?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Kann man Stopwords als "Gowords" umfunktionieren?

Beitragvon djlounge » Mo Okt 13, 2008 6:17 pm

Hallo Leute,

ich bin neu hier im Forum und habe gerade angefangen Yacy zu erkunden. Mein Problem: Ich möchte gerne nur Seiten indizieren lassen, die bestimmte Wörter im Text beinhalten. Der Crawl soll aber normal weiterlaufen, auch wenn die Seite die Worte nicht enthält. Die URL-Blacklist oder -Whitelist bringt mich also nicht weiter. Auch sollen Worte, wie z. B. aus der Stoplist, nicht ausgeixst werden sondern wirklich nur Seiten in den Index wandern, die eben eines oder eine Kombination der Suchworte enthalten. Klingt vielleicht zunächst ein wenig widersinnig, Ziel ist aber, hochspezialisierte Suchmaschinen zu bestimmten Themenbereichen zu erstellen und vorraussichtlich nicht relevante Seiten von vorneherein auszuschließen.

Ist so etwas mit Yacy schon möglich und wie kann man das ggf. erreichen?

Gruß, Jochen

PS: Ich habe noch einen kleinen BUG in der letzten Stable unter Windows gefunden: Werden Wörter mit Umlauten gesucht, kann nur die erste Ergebnisseite angezeigt werden. Folgeseiten werden, vermutlich aufgrund fehlerhafter Kodierung, nicht mehr angezeigt.
djlounge
 
Beiträge: 2
Registriert: Mo Okt 13, 2008 6:00 pm

Re: Kann man Stopwords als "Gowords" umfunktionieren?

Beitragvon Orbiter » Mo Okt 13, 2008 10:47 pm

denkst du dabei an eine umfangreiche Liste von Wörtern, oder nur eine kurze Liste die man als Option bei den Crawl-Start in so ein Eingabefenster rein bekommt? Das wäre nämlich relativ einfach, eine richtige Listenverwaltung dagegen ein wenig schwieriger.

So ein 'gelenktes crawling' finde ich auch sinnvoll. Dazu hatte ich schon mal einen Mechanismus vorgesehen, der zwei verschiedene Crawltiefen vorsieht: bis zur ersten Crawltiefe wird jedes Dokument erfasst, darunter dann wird nur noch Links gefolgt, wenn die URL mit bestimmten Wörtern matcht. Das hab ich aber nie eingebaut, weil das Konzept noch nicht rund war.

Bei so einer 'go'-Liste müsste man unterscheiden ob es dazu führt das die Seite indexiert wird, oder ob sie dann auch dazu dient zu entscheiden ob eingebetteten Links weiter gefolgt wird.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Kann man Stopwords als "Gowords" umfunktionieren?

Beitragvon djlounge » Di Okt 14, 2008 5:29 pm

Hi Orbiter,

genau an so etwas habe ich gedacht. Kurze Liste reicht. Genau wie du es schreibst. Ich fände es sinnvoll, daß, wenn der Parser auf eine passende Seite trifft, die Suchtiefe für diesen Zweig wieder auf den Ausgangswert zurückgesetzt wird. Ein Beispiel: Der Parser trifft bei Suchtiefe 3 (vorgegebene max. Suchtiefe ist auch 3) auf eine passende Seite. Den Links dieser Seite folgt er auch wieder bis auf Suchtiefe 3. Die Seite wird im Grunde behandelt wie eine neue Crawl-Start-Url.
Kann man bestimmt noch verfeinern (z. B. boolesche Operatoren zur Verknüpfung der Listenwerte, metatags der geparsten Seiten berücksichtigen, etc.), aber Ersteres wäre doch schon einmal ein großer Schritt.

Bei so einer 'go'-Liste müsste man unterscheiden ob es dazu führt das die Seite indexiert wird, oder ob sie dann auch dazu dient zu entscheiden ob eingebetteten Links weiter gefolgt wird.


Enthält eine Seite die Suchworte wird sie indexiert und den Links wird wieder von vorne bis zur max. Suchtiefe gefolgt. Links auf Seiten ohne die gewünschten Worte wird zwar gefolgt, aber diese Seiten wandern nicht in den Index.
djlounge
 
Beiträge: 2
Registriert: Mo Okt 13, 2008 6:00 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron