Spracherkennung

Forum for developers

Spracherkennung

Beitragvon Low012 » Mo Mär 10, 2008 12:34 pm

Ich komme zwar zur Zeit nicht zu besonders viel, habe mich aber mal wieder an das Thema Spracherkennung (Sprache in der ein Text verfasst ist) gemacht, weil ich denke, dass das bei immer größer werdendem Index immer nützlicher wird. (Die finnische Wikipedia interessiert micht nicht besonders... ;)) Damit sich nicht 2 Leute doppelte Arbeit machen müssen, zu meiner Motivation und zur allgemeinen Erheiterung werde ich in diesem Thread beschreiben, was ich genau mache.

Mein Ansatz ist, über eine Statistik der Anzahl der im Text vorkommenden Buchstaben auf die Sprache zu schließen. Mit einzelnen Buchstaben wäre es natürlich am einfachsten und Ressourcenschonensten, aber wohl auch am ungenausten. Wenn sich der Ansatz als nicht ausreichend herausstellen sollte, müsste ich wohl auf Buchstabengruppen (N-Gram) ausweichen.

Mein Problem bisher war, dass man nur für wenige Sprachen Statistikdaten bekommt. Ich hatte bisher Bibeltexte zur Erzeugung von Testdaten benutzt, weil die in vielen Sprachen verfügbar und schön lang sind. Die Suche war aber mühsam und die Sprache ist auch nicht besonders nah an dem dran, was man im Internet so findet. Daher habe ich ein Skript geschrieben, das sich zufällige Wikipedia-Seiten schnappt und analysiert (Abbruch des Programms bei 1000000 extrahierten Zeichen). Das klappt mittlerweile sehr gut (Ich kann jetzt auch UTF-8 unter Perl verarbeiten, hurra!), allerdings weichen die Werte etwas von denen ab, die ich für Deutsch und Englisch aus anderen Quellen vorliegen habe. Wahrscheinlich liegt das an der Art der eingesetzten Texte.

Ich werde mich daher als nächste daran setzen, eine Java-Routine zu schreiben, die mit meinen gesammelten Daten etwas anfangen kann und versucht, die Sprache von Texten zu bestimmen. Mal schauen, wie hoch die Trefferquote ist und ob die von mir gesammelten Daten brauchbar sind.
Zuletzt geändert von Low012 am Mo Mär 10, 2008 4:10 pm, insgesamt 1-mal geändert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » Mo Mär 10, 2008 2:44 pm

ok, super Marc!
das neue Suchinterface wird bald (heute Abend?) eine Funktion zeigen, mit der Sprachzonen selektiert werden können. Die stammen aus der Kategorisierung aller TLDs nach 8 weltweiten Regionen. Das ersetzt natürlich keine Spracherkennung, aber man kann schon mal etwas ähnliches dann im Interface sehen.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon Low012 » So Mai 18, 2008 10:35 pm

So, ich habe es endlich geschafft, mal eine erste Version zu programmieren. In de.anomic.languages.identification befinden sich nun ein paar Klassen, mit deren Hilfe die Sprache eines Textes bestimmt werden kann. Hier ein kleines Fragment, das zeigt, wie man das Ganze benutzen kann:

Code: Alles auswählen
Identificator id = Identificator.getInstance();
String text = "Ich bin der Text, dessen Sprache bestimmt werden soll!";
System.out.println(id.getLanguage(text));


Der Text sollte nach Möglichkeit natürlich viel länger sein und in UTF-8 kodiert sein. Es muss der reine Text sein, ohne HTML-Tags. Kann die Sprache nicht erkannt werden, wird "unknown" zurück geliefert.

Die statistischen Daten, die benötigt werden, um die Sprache zu bestimmen, befinden sich in den Dateien im Verzeichnis "langstats" im YaCy-Verzeichnis. Die Daten stammen aus Wikipedia-Artikeln. Hier das Perl-Skript, das ich geschrieben habe, um die Daten zu sammeln:

Code: Alles auswählen
#!/usr/bin/perl

# count.pl

use LWP::UserAgent;
use strict;

my $language = $ARGV[0];
unless ($language) {
    print "./count.pl <LANG>\n";
    exit;
}
my $webpage;
my $url = "http://$language.wikipedia.org/wiki/Special:Random";
my $content;
my $count = 0;
my %hash;

while ($count < 1000000) {
    $webpage = get($url);
    if (utf8::is_utf8($webpage)) {
        $webpage =~ s/\n//g;
        $webpage =~ s/.*<!-- start content -->(.*)<!-- end content -->.*/$1/;
        $webpage =~ s/<[^>]+>/ /g;
        $webpage =~ s/[^\p{L}]/ /g;
    }
    countLetters($webpage);
    print "$count\n";
    sleep 2;
}

writeFile("$language.lng");

sub get() {
    my $ua = new LWP::UserAgent;
    my $req = new HTTP::Request GET => $_[0];
    my $res = $ua->request($req);
    my $content = $res->decoded_content;
    return $content;
}

sub countLetters() {
    my $input = $_[0];
    my $length = length($input);
    my $i = 0;
    my $j = "";
    while($i < $length) {
        $j = lc(substr($input, $i, 1));
        if ($j =~ /\p{L}/) {
            $hash{$j} = $hash{$j} + 1;
            $count++;
        }
        $i++;
    }
}

sub writeFile() {
    my $filename = $_[0];

    my @keys = keys(%hash);
    my @values = values(%hash);
    my $numOfKeys = scalar(@keys);

    open(FILE, ">$filename");
    binmode FILE, ":utf8";

    my $i = 0;
    while ($i < $numOfKeys) {
        $values[$i] = ($values[$i]/$count*100);
        my $key = $keys[$i];
        if ($values[$i] >= 0.05) {
            print FILE "$key $values[$i]\n";
        }
        $i++;
    }
    close FILE;
}


Als Parameter wird der erste Teil der Wikipedia-Domain erwartet, von der Daten gesammelt werden sollen. Für Deutsch also de (de.wikipedia.org): ./count.pl de

Es gibt noch einige Dinge zu tun, aber ich wollte endlich mal was einchecken. Jetzt muss ich erstmal schlafen...
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Low012 » Di Mai 20, 2008 12:06 pm

Ich werde die Struktur des Packages demnächst noch etwas ändern, so dass die Statsistikdaten nur einmal im Speicher gehalten werden, man aber beliebig viele Instanzen der Klasse Identificator erzeugen kann, was für ein effizientes (paralleles) Indexieren mehrerer Dokumente erforderlich sein müsste.

Michael, wie wäre es denn sinnvoll, dass Daten an meine Klasse übergeben werden? Ich denke, dass beim Indexieren ein Text ja sowieso in seine einzelnen Wörter zerlegt wird, um Hash-Werte daraus zu erzeugen. Ich würde dann eine Methode zur Verfügung stellen, mit der einzelne Wörter als Strings oder char-Arrays an meine Klasse übergeben werden können und ein zweite Methode, die die Sprache errechnet und das Ergebnis der Berechnung zurück gibt.

Das könnte dann ungefähr so ausssehen:

Code: Alles auswählen
Identificator id = new Identificator();
while(noch Text da ist) {
    ...
    id.addWord(wort);
    ...
}
System.out.println(id.getLanguage(text));


Könntest du damit etwas anfangen?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » Di Mai 20, 2008 3:56 pm

Hallo Marc,
das sieht alles sehr gut aus. Ich hatte mir schon den Code den du eingecheckt hast angesehen, und dann erst mal gedacht dass man den Text der aus dem Parser kommt dort komplett reinhauen kann, und das dann in einem eigenen BlockingThread, so das die Spracherkennung eine eigene parallelisierte Bearbeitung in der Verarbeitungsqueue hin zum Indexieren bekommt.

Die Alternative hast du aber eben vorgeschlagen, da könnte man auf Wortebene im Condenser jedes Mal wenn ein Wort erkannt wurde das in die Spracherkennung schieben. Die Frage ist aber auch, ob das notwendig ist. So weit ich das sehe bringt deiner Statistik es nichts, die Buchstaben in Wort-Blöcke getrennt zu untersuchen, oder? Wenn dem so ist wäre es wohl einfacher die Texte komplett in einem eigenen parallelisierten Thread in die Analyse zu schicken.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon Low012 » Di Mai 20, 2008 4:32 pm

Ich bin leider in den ichweißnichtwieviel Jahren, die ich YaCy jetzt benutze, nie dazu gekommen, mal tiefer in den Code einzusteigen udn weiß daher nicht, wie und in welcher Form der eigentlich Content eines Dokuments wo vorliegt. Ich hatte mir nur gedacht, dass die einzelnen Wörter ja auf jeden Fall irgendwo mal auftauchen müssen, daher mein Vorschlag. Ob der Text als Ganzes oder Stückchenweise rein kommt, ist in der Tat egal. Zur Zeit wird auf jeden Fall alles, was nicht Buchstabe ist, ignoriert. Vorstellbar für die Zukunft wäre aber auch eine Analyse von Satzzeichen, was bei der Übergabe einzelner Wörter natürlich nicht funktionieren könnte.

Wenn der Text sowieso irgendwo mal als ein String auftaucht, dann ist es wahrscheinlich wirklich einfacher, ihn einmal komplett zu übergeben. Dann würde ich nur dafür sorgen, dass man mehrere Instanzen der Spracherkennung erzeugen kann, damit YaCy an der Stelle bei der Parallelisierung nicht künstlich eingeschränkt ist. Mal schauen, ob ich im Laufe der Woche dazu komme.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Low012 » Di Jun 03, 2008 10:41 am

Ich habe eben im Blog von SemaGer einen Artikel gefunden, den ich hier als Erninnerung an mich selbst poste: http://www.semager.de/blog/2008/05/21/spracherkennung-teil-2/

edit: Hier noch der aktuelle Stand: Ich habe den Code umgearbeitet, es können jetzt mehrere Instanzen parallel laufen. Allerdings habe ich noch Probleme, mit dem Perl-Skript Daten aus asiatischen Seiten zu ziehen. Mal schauen, ob und wie ich das lösen kann. Vielelicht konzentriere ich mich damit auch erstmal mehr auf Europa.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » Di Jun 03, 2008 10:49 am

tut mir leid dass ich noch nicht dazu gekommen bin das alles auszuprobieren und einzubauen. Aufgrund eines zeitlichen Engpassen und des schlechten Momentes vor dem Main Release würde ich das gerne auf den Bereich 0.591 verschieben. Das Einbauen sollte dann nicht so schwer sein, nur will ich jetzt keine Bugs mehr vor dem Release provozieren.
Ist aber super das das drin ist, wir brauchen dann gleich auch noch einen Selektierer bei der Suche und ggf. eine automatische Erkennung von woher der Browser kommt und welche Sprache der User eingestellt hat. Kann das schon mal jemand bauen?
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon Low012 » Di Jun 03, 2008 11:09 am

Wenn das erst in 0.591 eingebaut wird, bin ich damit sehr einverstanden. Ich weiß ja auch noch gar nicht, wie gut oder schlecht die Softzware mit Seiten, die nicht aus der Wikipedia kommen, funktioniert. Da passt es besser, das in eine experimentelle Version einzubauen udn nicht gleich ins Main-Release.

edit: Wenn jemand einen Selektierer bauen möchte: Ich habe alle Methoden in den neuen Klassen mit mehr oder weniger ausführlichen Kommentaren versehen. Wenn ich mich richtig erinnere, gibt es auch eine Methode, die die vorhandenen Sprachen zurück gibt (bzw. deren Codes, wie Wikipedia sie verwendet).
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » Do Sep 18, 2008 2:18 pm

tja nun hat das doch ein wenig länger gedauert bis ich dazu kam: hab die Klassen nun eingebaut.
Ich hab hin und her überlegt und dann doch beschlossen dass ich die Sache in den Condenser mit einbaue, und nicht einen separaten Thread dazu mache. Dazu ist ja schon sehr viel Parsen vorhanden, so dass nur noch Wörter reingeschoben werden müssen, und nicht der ganze Text.

Dazu musste ich aber die Identificator-Klasse ein wenig umbauen. Ich hoffe du erkennst sie wieder wenn du reinguckst. Da ist nämlich noch ein Problem:
in manchen Fällen wird die Sprache richtig erkannt, in anderen Fällen nicht, dann liefert deine Klasse 'pl' zurück. Das ist aber nicht alles polnisch...

Kannst du mal gucken woran das liegt?
Du kannst das folgendermaßen checken:
- crawl starten
- auf Zeilen mit "*** DEBUG LANGUAGE: identification of" achten. Wenn hinten 'FAILED' dran steht, dann hat deine Klasse null zurück geliefert, und dann wird die TLD als Sprache genommen. Wenn aber SUCCESS hinten dran steht muss die Sprache auch stimmen, dann ist aber m.E. zu oft ein 'pl'.

SVN 5180
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon Low012 » Do Sep 18, 2008 2:33 pm

Ja, schaue ich mir an, komme aber wahrscheinlich erst Sonntag dazu.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Low012 » So Sep 21, 2008 3:03 pm

Ich habe mir mal angesehen, was so an Wörtern in die Spracherkennung rein kommt und da ist mir aufgefallen, dass sehr viele URLs dabei sind, oft mehr URLs als eigentliche Wörter. Ist es so, dass URLs in Seiten auch zum Text der Seite gezählt werden? Ich hatte nämlich angenommen, dass der Text einer Seite aus dem eigentlichen Inhalt ohne solche Dinge wie URLs besteht und die nur im Ausnahmefall rein kommen, wenn sie z.B. zwischen <a href=""> und </a> stehen.

Außerdem wird der Input für die Spracherkennung aus einem SievedWordsEnum gewonnen, wo kurze Worte schon ausgefiltert sind. Das verfälscht die Eingabe nochmal, weil viele z.B. fürs Englische charakteristische Worte wie I, is, a, an verloren gehen, weil sie einfach zu kurz sind. Die kommen aber in durchschnittlichen Texten dummerweise sehr oft vor und wenn sie fehlen, bringt das die Statistik durcheinander.

Ich bringe jetzt mal den Müll weg, gehe einmal um den Block und überlege mir dann, was wir da machen können.

edit: Beim Rumprobieren ist mir eben aufgefallen, dass im Input für die Spracherkennung auch schon Umlaute zu "normalen" Buchstaben geändert sind, so wird z.B. nicht "Über Google" übergeben, sondern "UEber Google", was dem Text wieder einiges von seinem Charakter nimmt. Ich bleibe dran... ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » So Sep 21, 2008 9:30 pm

Aha, das deckt dann ja auch noch ein paar Bugs im Condenser auf:
Low012 hat geschrieben:Ich habe mir mal angesehen, was so an Wörtern in die Spracherkennung rein kommt und da ist mir aufgefallen, dass sehr viele URLs dabei sind, oft mehr URLs als eigentliche Wörter. Ist es so, dass URLs in Seiten auch zum Text der Seite gezählt werden? Ich hatte nämlich angenommen, dass der Text einer Seite aus dem eigentlichen Inhalt ohne solche Dinge wie URLs besteht und die nur im Ausnahmefall rein kommen, wenn sie z.B. zwischen <a href=""> und </a> stehen.

ja, das war wohl nicht alles richtig so. Die Media-Links müssen indexiert werden, weil darüber die Suche läuft. Bei der Text-Suche darf man die URLs nicht indexieren, sie würden dann auch bei dem Snippet-Fetch rausfliegen. Insgesamt sollen keine URLs in der Sprach-Statistik landen? Das habe ich alles jetzt gefixt, SVN 5197

Low012 hat geschrieben:Außerdem wird der Input für die Spracherkennung aus einem SievedWordsEnum gewonnen, wo kurze Worte schon ausgefiltert sind. Das verfälscht die Eingabe nochmal, weil viele z.B. fürs Englische charakteristische Worte wie I, is, a, an verloren gehen, weil sie einfach zu kurz sind. Die kommen aber in durchschnittlichen Texten dummerweise sehr oft vor und wenn sie fehlen, bringt das die Statistik durcheinander.

Das ist nun auch im Fix drin: der Iterator zählt nun alle Wörter auf, und wirken bei der Statistik mit, später werden dann zu kurze für den Index verworfen.

Low012 hat geschrieben:Ich bringe jetzt mal den Müll weg, gehe einmal um den Block und überlege mir dann, was wir da machen können.

Was ist dabei rausgekommen?

Low012 hat geschrieben:edit: Beim Rumprobieren ist mir eben aufgefallen, dass im Input für die Spracherkennung auch schon Umlaute zu "normalen" Buchstaben geändert sind, so wird z.B. nicht "Über Google" übergeben, sondern "UEber Google", was dem Text wieder einiges von seinem Charakter nimmt. Ich bleibe dran... ;)

Das ist leider die nächste Baustelle: irgendjemand muss jetzt mal so mutig sein und diese mistige Ersetzungsroutine für die Umlaute raus machen, um dann alles wieder glatt zu ziehen und zu sehen ob das Indexing auch mit UTF-8 geht. Werde ich derjenige sein? Ich befürchte das. Ich schiebe das nun schon, glaube ich, Jahre vor mir her. Herrje!
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon Low012 » So Sep 21, 2008 9:39 pm

Orbiter hat geschrieben:
Low012 hat geschrieben:Ich bringe jetzt mal den Müll weg, gehe einmal um den Block und überlege mir dann, was wir da machen können.

Was ist dabei rausgekommen?

Hauptsächlich die Erkenntnis, dass wohl kein Weg daran vorbei führt dass ich mich doch mal so richtig durch den Quelltext wühlen muss. ;)

Ich hatte noch ein bisschen am Condenser herumgebastelt, allerdings ist das nicht ganz einfach, wenn man nicht genau weiß, wieso manche Sachen so sind wie sie sind. Deshalb habe ich mich auch nicht getraut zu radikale Änderungen zu machen (und die am Ende auch noch einzuchecken :o) und bin daher froh, dass du dir die Stelle nochmal vorgenommen hast.

edit: Mit den Änderungen scheint es (zumindest nach einem kurzen lokalen Test) viel besser zu klappen als vorher.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » So Sep 21, 2008 10:07 pm

ich hatte jetzt bei meinem Test weniger 'pl' Ergebnisse, dafür mehr 'da' Resultate. Ich vermute mal das die blöde Zeichenkodierung einiges an Aussagekraft deiner Routine wegfrisst. Ich traue mich da ehrlich gesagt gar nicht so sehr ran, da müsste mich mir mal einen ganzen Tag zu Zeit nehmen.

Die Statistiken aus deiner Routine übernehme ich ja nicht einfach so. Vielmehr wird momentan noch eher die TLD genommen, wenn es irgendwie plausibel ist. Dazu dient so eine Art 'Voting'. Entsprechende Kommentare sind ja momentan als debug-Ausgabe drin.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon Low012 » So Sep 21, 2008 10:19 pm

Orbiter hat geschrieben:Die Statistiken aus deiner Routine übernehme ich ja nicht einfach so. Vielmehr wird momentan noch eher die TLD genommen, wenn es irgendwie plausibel ist. Dazu dient so eine Art 'Voting'. Entsprechende Kommentare sind ja momentan als debug-Ausgabe drin.

Ja, das habe ich gesehen, die Angaben aus den Metatags der Seiten werden, wenn ich das richtig gesehen habe, auch berücksichtigt, oder?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Orbiter » So Sep 21, 2008 10:23 pm

ja, aber ich frage mich schon ob die als relevanter angesehen werden sollten als die Statistik. Wenn die Statistik funktioniert, ist die Statistik mir lieber, denn Meta-Tags können ja auch schon mal falsch sein. (gefälscht oder versehentlich mit rein kopiert, dann nicht geändert). Ich setze ja auch ansonsten nicht so auf die Meta-Tags, vor allem nicht auf die Keywords, weil man damit ja so schön betrügen kann.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Spracherkennung

Beitragvon thq » Do Jan 22, 2009 6:13 pm

Wie gut funktioniert den die Spracherkennung bis jetzt. Frage deshalb weil die meisten Seiten aus der Schweiz zum Beispiel nur als ch gespeichert werden anstelle von de oder fr. Oder englische Seiten bekommen ein uk anstatt ein en.

Die meisten Logeinträge sehen bei mir so aus:

*** DEBUG LANGUAGE-BY-STATISTICS: http://example.org FAILED, taking TLD: en
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Spracherkennung

Beitragvon Low012 » Do Jan 22, 2009 8:50 pm

Es gibt zur Zeit noch 2 Probleme mit der Spracherkennung:

1. Die Statistikdaten sind noch nicht für alle Sprachen vorhanden und ich nicht ganz sicher, ob die vorhandenen Daten in einer geeigneten Form gespeichert und verarbeitet werden. Ich habe das ganze schon mal überarbeitet, aber dann versehentlich gelöscht. :(

2. Außerdem geht die Spracherkennung davon aus, dass sie den gesamte Text einer Seite als Eingabe bekommt. Das ist aber zur Zeit nicht der Fall, sondernals Eingabe kommt ein gefilterter Text. Orbiter hat aber irgendwo anders hier im Forum (oder war es in Berlin?) angekündigt ein paar Dinge zu ändern, die es dann vereinfachen, den gesamten Text zu untersuchen.

Zur Zeit ist die Spracherkennung also immernoch sehr unzuverlässig.

Ob uk und en äquivalent behandelt werden, das weiß ich leider nicht.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Spracherkennung

Beitragvon Lotus » Fr Jan 30, 2009 12:38 pm

Ist es eigentlich Absicht, dass der Ordner langstats nicht mit ins Release wandert?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Spracherkennung

Beitragvon dulcedo » Di Jun 30, 2009 10:22 pm

Da will ich nur kurz notieren damit es nicht in Vergessenheit gerät:

Gerade auf dem Linuxtag habe ich wieder jemanden getroffe der sich hoffentlich wieder meldet weil er auch so ein "Granulat-Jünger" ist. Das ist eine anderer Ansatz um natürliche Sprache zu verarbeiten, zuerstmal in geschriebener Form. Aber eigentlich egal welche Form.
Es wird nicht in Worte aufgeteilt sondern andere Informationseinheiten, Michael du erinnerst dich?
Wir wollen das über Symbolik umsetzen, per Interaktion, ich bin sicher wenn der Rechner so gewolltes in geschriebenes umsetzen kann, um danach suchen zu können, dann geht das so auch mit Sprache-Schrift.

Ich hoffe der meldet sich, hab nichtmal seinen Namen, Orbiter, du vielleicht? Samstag war das gegen Ende an unserem Stand.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron