Zahlen normalisieren

Ideen und Vorschläge sind willkommen.

Zahlen normalisieren

Beitragvon thq » Fr Jan 09, 2009 2:53 pm

Damit könnten US-Kunden dann auf rund 14.000 Filme und Serienfolgen großer Filmstudios und...

YaCy sollte lernen Zahlen die durch Punkte oder Kommas getrennt sind wieder als Ganzes zu sehen damit daraus kein Satzende gemacht wird.
Preise EUR 467,51 erkennen und komplett löschen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Zahlen normalisieren

Beitragvon Orbiter » Fr Jan 09, 2009 3:01 pm

hm, du findest immer mehr Beispiele. Der hier ist auch ok. Um das ganze modularer zu machen schlage ich vor dazu einen Textprozessor zu entwerfen, der abläuft bevor der text in den condenser kommt, anstatt den zu erweitern. Das liesse sich dann auch wunderbar als zusätzliche Stufe in die Verarbeitungskette der Blocking Queue mit multithreading machen.

Ich habe 'zufällig' jetzt mal sehen können, wie das eine professionelle Suchmaschinensoftware macht: das sieht da sehr ähnlich aus zu dem was wir haben, nur kann man für jeden Crawl eine Liste von Text-Prozessoren auswählen, und die zu einer Verabeitungsqueue zusammenstellen. Wir bräuchten dazu ein Processing-Interface, und für die Nutzung von Prozessoren entweder rule-based trigger oder statische Konfigurationen pro Crawl.

Lass mich mal darüber noch ein wenig nachdenken, dann gehen wir das für 0.8 an (also bald)
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zahlen normalisieren

Beitragvon Low012 » Fr Jan 09, 2009 4:06 pm

Orbiter hat geschrieben:Um das ganze modularer zu machen schlage ich vor dazu einen Textprozessor zu entwerfen, der abläuft bevor der text in den condenser kommt, anstatt den zu erweitern.


Da hätte man dann auch noch den kompletten Text, ohne dass da irgendwas normalisiert oder rausgeschmissen wurde, oder? Dann wäre es nämlich die ideale Stelle, um die Spracherkennung da laufen zu lassen! Um das Datum oder das Format einer Zahl (in deutschsprachigen Ländern steht ein Komma vor der ersten Dezimalstelle, in englischsprachigen Ländern ein Punkt usw.) bestimmen zu können, könnte es ja auch helfen zu wissen, welche Sprache eine Seite hat.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Zahlen normalisieren

Beitragvon Orbiter » Fr Jan 09, 2009 4:15 pm

ja genau, ich hab inzwischen eine weitere Idee gehabt, wo die Spracherkennung auch rein passt:
der preprozessor modifiziert nicht nur den Text (oder wie bei der Sprache auch nicht), sondern er pflegt ausserdem Metadaten. D.h. während der preprozessor läuft, reichert er Metadaten an. Im Falle des Sprachprozessors erzeugt er eben einen Metadateneintrag für die Sprache. Und andere prozessoren könnten Analysen für die Bedeutung des Inhaltes erzeugen, mit einem DDC-Output, oder zumindest Flags für die bisher in YaCy ungenutzen, aber spezifizierten Flags (im Code nach Konstanten mit 'flag_cat_' suchen, im condenser definiert).
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Zahlen normalisieren

Beitragvon Lotus » Mo Jan 12, 2009 9:03 am

Ich glaube nicht, dass das zuverlässige Ergebnisse bringt. Eine auf englisch konfigurierte Software (Weblog etc.) mit deutschem Inhalt zeigt englische Datumsangaben an. Im Deutschen wird der Punkt durchaus auch zur einfachen Lesbarkeit eingefügt. Z.B. 15.236,78 oder einfach nur 12.345 was nicht gleich 12,345 ist.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast