Sprachen erkennen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Sprachen erkennen

Beitragvon nixfinder » Di Dez 13, 2011 3:02 pm

Bitte entschuldigt, falls das Thema bereits thematisiert wurde.

Bin verzweifelt auf der Suche nach einer Sprachspezifikation.
Gemäß der Angabe in der Detailsuche würde ich für Englisch z..B Folgendes vermuten:
key /language/EN

Bringt aber leider keinen Erfolg... weiß wer Rat?
nixfinder
 
Beiträge: 1
Registriert: Di Dez 13, 2011 2:59 pm

Re: Sprachen erkennen

Beitragvon Lotus » Mi Dez 21, 2011 9:02 pm

Ja, so wird es benutzt. Die Erkennung der Sprache der Webseiten funktioniert auch, aber nicht in jedem Fall.

Was meinst du mit Sprachspezifikation?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sprachen erkennen

Beitragvon Vega » Fr Dez 23, 2011 1:05 am

@Lotus - wäre es möglich für die Auswahl der Sprachen einen Navigator zu bauen ? Eventuell auch Default abgeschaltet, ich hätte das gern für die OAI Suche.. Wie man in den Suchergebnissen sieht müsste da nur das Metatdaten Feld "Spache" ausgewertet werden. Bei diesen OAI Sachen ist dieses Feld auch richtig gesetzt. - Siehe http://oai.yacy.net/api/yacydoc.html?ur ... GFqHIr4CkC

Gruß Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Sprachen erkennen

Beitragvon Orbiter » Fr Dez 23, 2011 9:51 am

ein Sprachnavigator wäre nicht schwer zu machen, aber leider ist die Erkennung der Sprache noch ein wesentliches Problem. Hierzu zwei Vorschläge:

1) statt eines Sprachnavigators könnte man vorläufig einen Top-level-Domain - Navigator machen
2) eine bessere Spracherkennung machen. Besser als einzelne Buchstabenhäufigkeiten sollen trigramme sein, die häufigsten trigramme in der deutschen Sprache sind 'sch' und 'der'. Dazu gibt es auch ein 20 Jahre altes amerikanisches Patent mit Source Code (Basic!) und kompletter Trigrammtabelle

Und hier ist noch eine bemerkenswerte Sache: Google stellt N-Gramme aus ihren Buchscans auf Wortebene zum Download bereit: http://books.google.com/ngrams/datasets .. daraus liessen sich höchst intelligente Suchwortvorschläge machen! Der Download wäre allerdings gewaltig...
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sprachen erkennen

Beitragvon kilian » Fr Dez 23, 2011 12:18 pm

Heißt Patent wir dürfen das nicht anwenden? Oder nicht genau die gleiche Logik implementieren?

Also das mit den Trigrammen ist ja ansich nicht so schwer zu implementieren, oder? Es entsteht hald zusätzlicher Rechenaufwand. Ich schätz mal, dass man da auch einen sehr guten Algorithmus braucht.

Das mit den n-Grammen *könnte* man ja auch wieder "gemeinsam" angehen. D.h. jeder Peer hat ein Paar Mbyte der Tabellen drauf. Aber das ist vermutlich ein größeres Projekt.

Wie laufen denn die Suchvorschläge im Moment ab? Hab im Forum und im Wiki dazu nichts gefunden.
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: Sprachen erkennen

Beitragvon Lotus » Fr Dez 23, 2011 12:44 pm

kilian hat geschrieben:Wie laufen denn die Suchvorschläge im Moment ab? Hab im Forum und im Wiki dazu nichts gefunden.

Die werden anhand des lokalen Index erstellt. D.h. du bekommst nur Wörter vorgeschlagen, die deine Installation auch selbst kennt.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sprachen erkennen

Beitragvon Orbiter » Fr Dez 23, 2011 1:07 pm

kilian hat geschrieben:Heißt Patent wir dürfen das nicht anwenden? Oder nicht genau die gleiche Logik implementieren?

ich finde es gibt hier drei gute Gründe die Tatsache dass das patentiert ist zu ignorieren:
1) wir haben hier kein kommerzielles Produkt
2) wir habe in Europa (noch :? ) keine Softwarepatente und mir ists schnurz was es in den USA für Gesetze gibt
3) Widerstand im Allgemeinen gegen Softwarepatente

mal abgesehen davon gibts kaum einen noch so blöden Algorithmus der noch nicht patentiert ist. Sogar sowas wie byte-ording für Konvertierung zwischen little-endian und big-endian ist patentiert.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Sprachen erkennen

Beitragvon Lotus » Fr Dez 23, 2011 3:52 pm

Orbiter hat geschrieben:
kilian hat geschrieben:Heißt Patent wir dürfen das nicht anwenden? Oder nicht genau die gleiche Logik implementieren?

ich finde es gibt hier drei gute Gründe die Tatsache dass das patentiert ist zu ignorieren:

Laut Wikipedia laufen Patente normalerweise nach 20 Jahren aus (in Deutschland). In den USA scheint das ähnlich, nur hat dort jeder Staat seinen eigenen Gesetze (en. WIkipedia). Also wäre es wohl sogar ok, es genau so zu implementieren. Es wäre also sogar interessant, sich alle ausgelaufenen und bald auslaufenden Patente anzusehen ob sie verwertbar sind. ;)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Sprachen erkennen

Beitragvon Low012 » So Dez 25, 2011 8:48 pm

Das Problem, an dem wohl auch die derzeitige Implementierung krankt ist aber auch, dass der Text eines Dokuments in seiner Originalform durch die Texterkennung gejagt werden muss, damit die richtige Sprache bei raus kommt.

Dazu gibt es auch schon einen älteren Beitrag an anderer Stelle (im Zusammenhang mit der derzeitigen Implementierung): viewtopic.php?f=8&t=933&p=8147#p12316

Ich habe das alte Perl-Skript von damals geringfügig überarbeitet und vor ein paar Tagen mal Statistiken für alle Sprachen erzeugt, in denen es Wikipedias gibt. Ich werde die demnächst mal einbauen. Insbesondere bei asiatischen Sprachen fällt jedoch auf, dass da z.B. viele "E"s vorkommen. Vielleicht ist das auf asiatischen Seiten auch insgesamt so, da bin ich überfragt.

Bei der Trigrammtabelle aus dem Patent ist mir aufgefallen, dass lediglich ASCII-zeichen benutzt wurden. Das hat zwar den Vorteil, dass das Programm ohne Änderungen wahrscheinlich auch auf einem C64 laufen würde, aber z.B. mit UTF-8-Dokumenten keine optimalen Ergebnisse liefert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste