Thesaurus / Stemming / Synonyme

Ideen und Vorschläge sind willkommen.

Thesaurus / Stemming / Synonyme

Beitragvon Lotus » Mo Okt 07, 2013 8:58 pm

Das könnte auch unter "Mitmachen" stehen.

Ich habe mir kurzerhand mal den deutschen OpenThesaurus runtergeladen und per sed in die für YaCy benötigte Form tranferiert.
http://www.openthesaurus.de/about/download

Das geht so:
Code: Alles auswählen
sed s/\\s*\([^\)]*\)\\s*//g openthesaurus.txt | sed s/\;/\,/g | sed s/^/\{/ | sed s/$/\}/  >openthesaurus_yacy

Kurze Erklärung dazu: 1) alles, was innerhalb von Klammern steht löschen, Whitespaces links und rechts der Klammer ebenso, 2) alle ; durch , ersetzen 3) am Zeilenanfang { hinzufügen 4) am Zeilenende } hinzufügen

Die Synonym-Liste hat dann folgendes Format:
Code: Alles auswählen
{<synonym1>,<synonym2>,<synonym3>}

Orbiter hat es hier erklärt: http://www.yacy-forum.org/viewtopic.php?f=2&t=2784

Dort gehört sie hin:
Code: Alles auswählen
/DATA/DICTIONARIES/synonyms


Um es zu testen, habe ich ein leeres Webportal Profil genommen. Die Snippet-Verifikation muss ausgeschaltet werden, sonst wird es bei der normalen Suchseite aussortiert!
Ich habe dann diesen Wikipedia-Artikel mit Tiefe 0 gecrawlt: http://de.wikipedia.org/wiki/Kernspaltung Dann nach "Atomspaltung" gesucht, und voila, es wird angezeigt, ohne dass das Wort im Artikel auftaucht. "Prozess der Atomspaltung" funktioniert auch, dann wird "Prozess der" im Snipped markiert.

Viel Spaß beim Spielen!
Ich lege eine fertige Kopie von der Liste ins addon Verzeichnis bei git.

PS: unten im Footer von Openthesaurus gibt es noch einen Link zu einer Grammatikprüfung. Vielleicht mann man sich damit mal alle Verben konjugieren. Das habe ich aber nicht weiter verfolgt.
http://www.languagetool.org/de/
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Thesaurus / Stemming / Synonyme

Beitragvon Orbiter » Mo Okt 07, 2013 10:17 pm

aaah total geil! öh, das wird aber noch nicht automatisch benutzt? Wenn nicht, wäre da noch ein Kopierprozess dafür sinnvoll. Schaue ich mir später noch an.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Thesaurus / Stemming / Synonyme

Beitragvon Lotus » Di Okt 08, 2013 6:12 pm

Nein, das wird noch nicht automatisch genutzt. Ich wollte es erst einmal zum spielen anbieten, zumal ich nicht weiß wie sehr das auf die Performance beim Crawlen geht und die Datenbank fett macht.
Im OpenThesaurus stehen auch viele Sachen drin, die mehrere Wörter statt eins nutzen. Und dann ist es oft nur die Grundform, die so alleine normal gar nicht benutzt wird. Andererseits sind die Daten die dort drin sind besser, als gar keine zu haben.

Den OpenThesaurus gibt es auch noch für andere Sprachen, die hier verlinkt sind: http://www.openthesaurus.de/about/index
Griechisch
Polnisch
Portugiesisch
Slowenisch
Spanisch


Und nun noch für alle die kein Git haben, hier der Link zum Download:
https://gitorious.org/yacy/rc1/source/6 ... n/synonyms
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Thesaurus / Stemming / Synonyme

Beitragvon Orbiter » Mi Nov 19, 2014 6:18 pm

dieses super Stemming-Ding von Lotus kann nun über eine Funktion im Knowledge Loader aktiviert werden:
/DictionaryLoader_p.html -> Synonyms -> Activate

findet jemand dazu eine englische Stemming-Datei?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Thesaurus / Stemming / Synonyme

Beitragvon Low012 » Fr Nov 28, 2014 11:47 am

Stemming-Dateien habe/kenne ich leider nicht.

Mir ist nur eben eingefallen, dass ich vor einiger Zeit mal http://de.wikipedia.org/wiki/Soundex implementiert habe, womit man relativ einfach mehr oder weniger ähnlich klingende Wörter identifizieren kann. Eigentlich wollte ich noch mehr Algorithmen in der Richtung implementieren, nur bin ich dann nie dazu gekommen.

Die Implementierung liegt hier: https://gitorious.org/my-personal-java-toolbox/my-personal-java-toolbox/source/MyPersonalJavaToolbox/src/de/audioattack/mpjtb/lang/soundex

Im Wikipedia-Artikel zum Soundex wird auch auf http://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus verwiesen. Ein paar Klicks weiter landet man dann bei http://tartarus.org/~martin/PorterStemmer/java.txt. Das Programm enthält auch eine main-Methode zum Einlesen und Verarbeiten von (englischen) Wortlisten. Damit sollte es möglich sein, selbst eine Stemming-Datei zu erzeugen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste