Meinten Sie etwa....

Ideen und Vorschläge sind willkommen.

Meinten Sie etwa....

Beitragvon kellerlanplayer » Fr Jun 05, 2009 12:02 am

Ein absolutes Highlight als Feature wäre die Funktion "Meinten Sie etwa" ...

Ihr kennt das alle, viele Suchdienste bieten das momentan an. Wenn man sich verschrieben hat, werden einen Vorschläge gezeigt, was man eigentlich suchen wollte, bzw. was besser wär zum suchen.

Sowas in yacy wär absolute spitze ;)
kellerlanplayer
 
Beiträge: 30
Registriert: Sa Mai 23, 2009 12:46 pm

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Fr Jun 05, 2009 6:23 am

Siehe dazu auch diesen Thread: viewtopic.php?f=9&t=528&start=0&st=0&sk=t&sd=a&hilit=aspell

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » Mi Jun 10, 2009 11:20 am

abgesehen von der strikten Überprüfung gegenüber einem normalisierten Wortschatz inklusive stemming fiel mir hier eine Möglichkeit ein, wie man ein 'did you mean' vollständig ohne Wörterbuch und Grammatik machen könnte, und es wäre sogar relativ einfach zu realisieren:

Angenommen, das gesuchte Wort war nur deswegen falsch geschrieben, weil es Buchstabendreher oder überzählige Buchstaben gab, dann könnten wir folgendes machen: bei einer Wortlänge von x Buchstaben
- gibt es maximal x-1 Buchstabendreher
- gibt es maximal x überzählige Buchstaben
.. also 2x-1 Alternativen, die man durchstesten könnte, indem man eine Abfrage in den Wortindex mit Hilfe eines einfachen exists-Operators macht. So ein 'exist' ist in unserer Datenstruktur supereffizient und geht vollständig ohne IO. D.h. es sollte möglich sein, 2x-1 Varianten eines Suchwortes schnell durchzutesten, und dann die Varianten, die einen Treffer erzeugten wären dann mögliche Vorschläge für das 'Meinten Sie etwa'.

Müssten wir mal ausprobieren. Sollte um so besser gehen, je mehr valide Wörter im eigenen Index sind. Geht gar nicht bei leerem Index.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon Low012 » Fr Jun 12, 2009 9:32 am

Ein Vorteil der Methode wäre auch, dass keine Wörter vorgeschlagen würden, die nicht im Index stehen und ein leeres Suchergebnis liefern würden. ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Fr Jun 12, 2009 7:44 pm

The most common mistakes are the four categories listed below:
(1) Changing one letter: bat / cat;
(2) Adding one letter: bat / boat;
(3) Deleting one letter: frog / fog; or
(4) Reversing two consecutive letters: two / tow.

Die vier Fälle hab ich implementiert - die Anzahl Fälle bleibt mit einem Alphabet aus 30 Kleinbuchstaben noch überschaubar. Immerhin werden damit nicht nur Buchstabendreher erkannt. Der Begriff Alphabet suggeriert aber schon, dass das nur mit westlichen Sprachen sinvoll funktionieren wird.

Meine Abfrage, was davon im Index vorhanden ist, ergibt allerdings eine ConcurrentModificationException :-(
Ich hab das ganz platt wie folgt probiert:
Code: Alles auswählen
if(!sb.indexSegment.termIndex().has(Word.word2hash(s)))


Vielleicht sollte ich mal wen fragen, der sich auskennt!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » Fr Jun 12, 2009 7:52 pm

ah, ok prima, du hast das schon gemacht?
Die Zeile ist ok.
aber wo kommt die concurrent modification exception? da gibts ja vielen Stellen wo das möglich ist.
Hast du einen thread dump?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Fr Jun 12, 2009 8:07 pm

Anbei der Thread Dump...

Jop, ich hatte grad Lust, mal was auszuprobieren, zumal das ja kein Hexenwerk ist und ich das Feature cool finde!
Wäre nämlich echt ne Sache, wenn wir ohne extra Wörterbuch auskämen!

Gruß!
apfelmaennchen

EDIT: Vergiss den Dump...ich hab das selbst verursacht!
Dateianhänge
dump.log.tar.gz
(7.26 KiB) 92-mal heruntergeladen
Zuletzt geändert von apfelmaennchen am Fr Jun 12, 2009 9:54 pm, insgesamt 1-mal geändert.
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Fr Jun 12, 2009 9:37 pm

Das funktioniert weit besser als erwartet :-)
Momentan allerdings nur bei der Suche nach einem einzelnen Begriff.

Gruß!
apfelmaennchen

EDIT:
Auf meinem großen Peer (>40 Mio. RWIs) werden sehr (zu) viele Vorschläge angezeigt. Einfach die ersten 10 zu nehmen macht keinen Sinn. Wir müssten z.B. die häufigsten 10 (also mit den meisten URL-Referenzen) nehmen, dazu müssten wir aber sb.indexSegment.termIndex().count() aufrufen. Im Gegensatz zu has() entsteht dann aber zusätzlicher I/O, oder?
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » Fr Jun 12, 2009 10:23 pm

ich hab einen 'Invalid character constant' error in Eclipse, DidYouMean.java Zeile 20. Eclipse-Built geht damit nicht.
Da sind wohl Umlaute, die mein Mac aber nicht als Umlaute darstellt, da ist Eclipse ziemlich zickig. Kannst du mal gucken ob die alphabet deklaration irgendwie anders geht ohne non-ascii-7 Chars im Source code?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Fr Jun 12, 2009 10:37 pm

Sorry! Hab das jetzt Hex als Unicode eingebaut!
Bin ja selber Mac-Nutzer, sitze nur grad an meiner Linuxkiste...

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon dulcedo » Sa Jun 13, 2009 2:18 am

Funktioniert für mich prima weil er nicht erst wie Google die Mainstream-Wörter vorschlägt, mehr im Sinn von Rechtschreibung. Wobei ich die Google Lösung auch ganz praktisch finde, aber die gibt es ja schon.
Auch die anderen Neuerungen auf yacysearch sind toll zu nutzen. Auf meinem Netbook geht allerdings der Bildschirm aus, das schafft die Portallösung besser.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Sa Jun 13, 2009 7:26 am

Ich hab das jetzt nochmal verbessert und einen Parameter für den Query-String ergänzt.

&meanCount=n gibt n "Meinten Sie" - Empfehlungen sortiert nach Häufigkeit - sb.indexSegment.termIndex().count()!
&meanCount=0 gibt keine Empfehlungen und führt auch die Berechnungen nicht aus, also kein Performance-Verlust!

Die Sortierung macht aus meiner Sicht hochgradig Sinn, nur bräuchte ich ein bisschen Feedback zur Performance, weil der Comparator ja hier doch ein paar mal öfter auf den Index zugreift, als mit der einfacheren sb.indexSegment.termIndex().has() Lösung!

Gruß!
apfelmaennchen

EDIT: Sorge macht mir, dass ich scheinbar mit jedem Start von YaCy 10 - 20 Mio. RWIs verliere :-(
Hoffe nicht, dass das was mit "Meinten Sie" zu tun hat. Ich nehm mal an das ist blanker Zufall und Ergebnis des normalen Merge-Prozesses!
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » Sa Jun 13, 2009 11:28 am

sieht gut aus. Ich hab zwar merkwürdige Effekte beim Testen, weil ich extra-falsch geschriebene Wörter eingebe und dann tatsächlich Ergebnisse zu den falschen Wörtern bekomme, und dann keine Vorschläge, aber hin und wieder kommen eben Vorschläge.

Vom Timing her ist der Code an der richtigen Stelle: nach dem Start der Suche, die dann schon im Hintergrund abläuft.

Ich habe eine kleine Änderung im Aufruf gemacht, indem ich den Index direkt übergebe anstatt das Switchboard-Objekt. Da versuche ich im allgemeinen bei jeder Umstrukturierung speziellere Objekte als das sb-Objekt zu übergeben, weil durch die direkte Verlinkung des sb dieses ziemlich schlecht wartbar ist.

Der ganze Prozess liesse sich übrigens supergut auf viele Prozessoren skalieren!
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Sa Jun 13, 2009 12:02 pm

Es kommt deshalb öfter keine "Did you mean", weil nicht in jeder Suchanfrage &meanCount=5 enthalten ist!
Dieses Problem tritt also in aller Regel bei aufeinander folgenden Suchen auf.
Um das abzustellen müssen wir noch an einigen (vielen) Stellen (Navigator-URL, index.html usw.) diese neue Option "bekannt mache".
Ich hab schlicht noch nicht alle Stellen erwischt, an denen Suchoptionen weitergereicht werden.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon PCA42 » Sa Jun 13, 2009 3:59 pm

apfelmaennchen hat geschrieben:... nur bräuchte ich ein bisschen Feedback zur Performance ...

Das funktioniert ja richtig gut. Ich hatte die letzten Tage dank 1+1 mal wieder etwas mehr Zeit, die Welt ohne Internet zu genießen.

Diese neue Funktion fügt sich gut in die Ergebnisseite ein. Die gelieferten Ergebnisse sind brauchbar. Und die Performance hat nicht gelitten (Peer mit 135 GB an Blobs).
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Meinten Sie etwa....

Beitragvon Orbiter » Sa Jun 13, 2009 6:42 pm

Die Performance wird an einer Stelle verbraten, die für die Suche mit remote Ergebnissen sogar ganz gut ist. Direkt nach dem Starten der Suche brauchen die remote Peers ein wenig Zeit zum antworten, ich hatte deswegen bis vor ein paar Tagen die lokale Suche nach dem Start der remote Suche gehabt. Das hat dafür gesorgt, dass was sinnvolles in der Wartezeit für die Remote Peers was gemacht wurde, eben die lokale Suche. Nachdem ich das aber letztens umgestellt habe, damit die lokalen Ergebnisse auf jeden Fall vor den remote Ergebnissen in Betracht gezogen werden, fehlte eine sinnvolle Beschäftigung in der Zwischenzeit. Das Resultat war, dass erst mal gar nichts von den Remote Ergebnissen angezeigt wurde, und nur die lokalen. Man hätte also eine Zwangspause machen müssen. Die kann nun mit den Wortberechnungen sinnvoll gefüllt werden.
Nur ist es so, dass diese Berechnungen auch nicht zu lange dauern dürfen, und auch nicht im Kontext von Sicherheitsfragen zu Peer-Instabilitäten führen darf. Daher wäre ein erzwungener Time-Out ganz gut, ich würde sowas von 300 Millisekunden gut finden als ersten Versuch.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Sa Jun 13, 2009 8:19 pm

Ein Timeout wird unausweichlich ... 22249ms ist definitiv zu lang.
Nach meiner Erfahrung mit meinem Peer (Quad Core 8GB RAM und eigene schnelle Platte für YaCy) sind aber 300ms unrealistisch.
Bei einer angezeigten "execution time von 1000 - 1500ms kommt die Anzeige des DidYouMean gefühlt verzögerungsfrei.
Code: Alles auswählen
I 2009/06/13 20:59:37 DidYouMean calculated 241 word variations, therof 69 contained in termIndex; execution time: 10433ms
I 2009/06/13 20:59:56 DidYouMean calculated 241 word variations, therof 72 contained in termIndex; execution time: 7926ms
I 2009/06/13 21:00:03 DidYouMean calculated 421 word variations, therof 11 contained in termIndex; execution time: 674ms
I 2009/06/13 21:00:15 DidYouMean calculated 421 word variations, therof 20 contained in termIndex; execution time: 1353ms
I 2009/06/13 21:00:24 DidYouMean calculated 481 word variations, therof 2 contained in termIndex; execution time: 598ms
I 2009/06/13 21:00:26 DidYouMean calculated 539 word variations, therof 0 contained in termIndex; execution time: 9ms
I 2009/06/13 21:00:37 DidYouMean calculated 299 word variations, therof 38 contained in termIndex; execution time: 3715ms
I 2009/06/13 21:00:54 DidYouMean calculated 481 word variations, therof 1 contained in termIndex; execution time: 197ms
I 2009/06/13 21:01:07 DidYouMean calculated 481 word variations, therof 4 contained in termIndex; execution time: 1206ms
I 2009/06/13 21:01:23 DidYouMean calculated 239 word variations, therof 46 contained in termIndex; execution time: 5536ms
I 2009/06/13 21:01:58 DidYouMean calculated 241 word variations, therof 24 contained in termIndex; execution time: 1695ms
I 2009/06/13 21:02:25 DidYouMean calculated 601 word variations, therof 3 contained in termIndex; execution time: 332ms
I 2009/06/13 21:03:06 DidYouMean calculated 241 word variations, therof 50 contained in termIndex; execution time: 8813ms
I 2009/06/13 21:03:38 DidYouMean calculated 301 word variations, therof 12 contained in termIndex; execution time: 713ms
I 2009/06/13 21:04:12 DidYouMean calculated 241 word variations, therof 58 contained in termIndex; execution time: 22249ms
I 2009/06/13 21:08:15 DidYouMean calculated 421 word variations, therof 2 contained in termIndex; execution time: 323ms
I 2009/06/13 21:08:20 DidYouMean calculated 421 word variations, therof 2 contained in termIndex; execution time: 14ms
I 2009/06/13 21:08:29 DidYouMean calculated 479 word variations, therof 3 contained in termIndex; execution time: 12ms
I 2009/06/13 21:08:40 DidYouMean calculated 181 word variations, therof 98 contained in termIndex; execution time: 4048ms
I 2009/06/13 21:09:01 DidYouMean calculated 241 word variations, therof 68 contained in termIndex; execution time: 2564ms
I 2009/06/13 21:09:10 DidYouMean calculated 241 word variations, therof 68 contained in termIndex; execution time: 2497ms
I 2009/06/13 21:09:18 DidYouMean calculated 241 word variations, therof 68 contained in termIndex; execution time: 3234ms


Verbraten wird die Zeit beim Sortieren des finalen TreeMap, nicht bei der Berechnung der Wortkombinationen...
Code: Alles auswählen
I 2009/06/13 22:29:14 DidYouMean calculated 241 word variations in 0ms
I 2009/06/13 22:29:14 DidYouMean found 119 matches in termIndex in 5ms
I 2009/06/13 22:29:21 DidYouMean sorted 64 terms in 6445ms

I 2009/06/13 22:30:49 DidYouMean calculated 241 word variations in 0ms
I 2009/06/13 22:30:49 DidYouMean found 42 matches in termIndex, in 6ms
I 2009/06/13 22:30:51 DidYouMean sorted 25 terms in 1766ms

I 2009/06/13 22:31:15 DidYouMean calculated 241 word variations in 1ms
I 2009/06/13 22:31:15 DidYouMean found 112 matches in termIndex in 202ms
I 2009/06/13 22:31:25 DidYouMean sorted 64 terms in 10471ms


Ich baue dann mal a) ein Timeout ein und b) versuche ich das noch zu beschleunigen...

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » Sa Jun 13, 2009 11:11 pm

apfelmaennchen hat geschrieben:I 2009/06/13 22:31:25 DidYouMean sorted 64 terms in 10471ms

Die Codestelle wo dieses Log ausgegeben wird kann ich nicht finden, wahrscheinlich hast du es noch nicht commited. Kann aber auch nicht sein, 64 Terme zu sortieren ist fast nicht messbar, so schnell sollte das gehen, vielleicht mit Nanosekunden.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » Sa Jun 13, 2009 11:20 pm

Code: Alles auswählen
    private class wordSizeComparator implements Comparator<String> {
      public int compare(final String o1, final String o2) {
          final Integer i1 = index.count(Word.word2hash(o1));
          final Integer i2 = index.count(Word.word2hash(o2));
          return i2.compareTo(i1);
       }       
    }


Das Sortieren ansich ist peanuts...ich denke index.count() ist das Problem (oder mein vermurkster Index), prüfe das aber noch.
Ich hab grad alles auf Threads umgebaut, deshalb hatte ich die Änderungen noch nicht ins SVN eingecheckt, sorry!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » Sa Jun 13, 2009 11:57 pm

hab die codestelle auch gerade gefunden.

Das Zählen der Referenzen zu den Wörtern macht sicherlich sinn, um die besten Vorschläge zu bekommen, aber das hier ist hochgradig IO-intensiv und geht deswegen nicht! Mein Vorschlag oben zu den 300 Millisekunden bezog sich auch auf einen Test ohne IO. Wir haben eine schön schnelle Suche und können uns ein Runterbremsen auf mehrere Sekunden für das Feature nun aber nicht leisten. Das geknatter der Platte in so einem Moment macht einen auch stutzig; so ist mir das Feature zu 'teuer'. Wir haben ja auch ohne die Zählung ein Ergebnis, reicht das nicht schon?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon apfelmaennchen » So Jun 14, 2009 12:13 am

Das Ergebnis ohne die Sortierung bringt manchmal >100 Terms, zumindest bei meinem Index dann qualitativ eher bescheiden.
Egal, ich hab das vorerst wieder umgestellt, so dass keine Sortierung mehr stattfindet ...

Gruß!
apfelmaennchen

P.S. Jetzt hat mein" großer" Peer noch 5 Mio. RWIs von einst 40 Mio. .... dulcedo hat wohl recht, wir haben ganz andere Probleme.
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: Meinten Sie etwa....

Beitragvon Orbiter » So Jun 14, 2009 12:17 am

-> SVN 6064. Andere (richtigere) Berechnung.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon Orbiter » Mi Sep 02, 2009 3:18 pm

Mit SVN 6284 gibts nun eine weitere Generator-Regel für das did-you-mean: dictionaries. Ich benutzte eine Tabelle um aus einem test-Wort eine Liste von Wörtern zu machen, die mit dem Test-Wort beginnt oder endet. Die etwas geänderten Regeln im DidYouMean erzeugen nun 2 Listen: eine, die nur durch synthetische Transformationen entsteht, und eine andere, die aus der Verfolständigungsregel der library aus _allen_ synthetisch generierten Wörtern erzeugt wird. Erst wenn diese Generationen alle durch sind, wird geschaut ob das überhaupt dazu geführt hat, dass Library-Wörter genommen wurden. Ist dies der Fall, werden _nur_ die Library-Wörter genommen, ansonsten die synthetischen Wörter. Das Ergebnis wird dann nochmal wie gehabt gegen den Index gecheckt.

Als Resultat verhält sich der Algorithmus dann bei einer fehlenden Wortliste so wie vorher. Ist die Wortliste da, und ist sie kurz, macht es nichts wenn dort keine Treffer sind, dann ist es ebenso wie vorher. Ist die Liste lang, gibt es um so bessere Treffer.

Momentan hat mich die YaCy-Suche auf geoclub.de dazu motiviert hier eine Wortliste einzubauen, denn die Wortliste beim Thema Geocaching wird eine spezialisierte sein, und nicht ein Grundwortschatz. Dan findet man bei 'muggel' auch 'weggemuggelt'.

Für das Standard-Release von YaCy wäre es schön auch eine Wortliste zu haben. Marc hat dazu zu meinem Commit 6282 schon bemerkt, dass die Dateien die ich da eingebaut habe nicht ganz zum GPL passen werden. Ich werde das wohl wieder raus machen. Vielleicht findet ihr ja noch andere Dateien mit public-domain Lizenz oder GPL-kompatiblem.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Meinten Sie etwa....

Beitragvon Low012 » Mi Sep 02, 2009 6:34 pm

Ich weiß nicht, ob die Wörterbücher von OpenOffice in dein Konzept passen und ob das von der Lizenz passt, aber da könnten wir mal schauen. Die liegen auf irgendeinem Server rum, ohne dass man das komplette Office runterladen muss. Ich werde nachher mal suchen...
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Meinten Sie etwa....

Beitragvon Lotus » Mi Sep 02, 2009 6:59 pm

Wenn man das OO.org Wörterbuch (http://extensions.services.openoffice.o ... e_DE_frami) als Archiv öffnet (z.B. mit 7zip) kann man eine Readme lesen in der einige Links stehen. Insgesamt scheint es unter GPL zu stehen.
Zwei Interessante:
http://www.j3e.de/ispell/igerman98/
http://www.openthesaurus.de/
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Meinten Sie etwa....

Beitragvon Orbiter » Mi Sep 02, 2009 7:52 pm

gute Vorschläge.
Ich denke aber wir gehen nun besser einen anderen Weg als den, den ich mit SVN 6282 begonnen habe, denn da kann ja ganz schön was zusammen kommen. Das kann ja nicht alles ins Release.
Ich habe das derewo-File nun wieder aus dem SVN entfernt. Das soll jetzt so laufen:

- im Verzeichnis DATA/DICTIONARIES/source/ kann man Dateien hinladen, die dann von YaCy beim Startup automatisch gelesen und übersetzt werden
- wer das derewo-v-30000g-2007-12-31-0.1.txt benutzen will, läd es sich halt von http://www.ids-mannheim.de/kl/derewo/de ... 31-0.1.zip, entpackt es und legt es nach DATA/DICTIONARIES/source/
- analog würde es mit den anderen Files aus euren Vorschlägen laufen. Da kann man separat Übersetzer für bauen.

Aber noch viel besser wäre: ein Servlet, dass das Downloaden für einen übernimmt. Das ist ja keine schwere Sache. Gäbe es dafür Freiwillige? Dann könnte man so alle Files aus den Vorschlägen einbinden.

Die Vorgehensweise liesse sich dann kopieren für eine andere Sache, wo dictionaries auch helfen: nach-Annotierung von Texten beim Parsen um bei der Suche spezielle Navigatoren anbieten zu können. Beispielsweise ein Ortsnavigator: da muss man wissen dass im Text ein Ortsname ist, dann kommt dieser in die LURL-db und dann geht ein shallow navigator für Ortschaften. Das ginge dann für jedes Thema, für das man ein dictionary hat.

Wer bietet sich an den Dictionary-Downloader zu schreiben?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast