Parser Satzerkennung

Ideen und Vorschläge sind willkommen.

Parser Satzerkennung

Beitragvon Lotus » Mo Jul 07, 2008 10:25 am

Ich habe mir eben einmal die "Parsed Sentences" einer Datei angesehen. (Info-Link vom Suchergebnis)
Mir fiel auf, dass bei Begriffen wie z.B., yacy.net, Web 2.0 usw. ein neuer Satz erkannt wird. Teilweise fixen kann man dies über eine Erkennung durch ".[whitespace]". Momentan scheint das nur durch "." zu erfolgen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Parser Satzerkennung

Beitragvon Lotus » So Mai 17, 2009 9:05 pm

Guck ich mir nach dem Release einmal an. Einwände/gibt es was wichtiges zu beachten?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Parser Satzerkennung

Beitragvon EnTeQuAK » Di Mai 19, 2009 9:29 am

Ich bin noch nicht wirklich sehr mit den YaCy-Internen vertraut, aber eine Satztrennung ist wesentlich schwieriger als nur mit '.[:space:]' umzusetzen. Was ist mit Straßennamen (Foostraße 9. a) oder englischen Personenbezeichnungen (Mr. Foobar). Mir fällt bei längerem Überlegen noch mehr ein ;)

Oder wo genau tritt die Satzerkennung in Kraft?

Grüße,
Christopher.
EnTeQuAK
 
Beiträge: 3
Registriert: So Jan 04, 2009 7:21 pm

Re: Parser Satzerkennung

Beitragvon Lotus » Mi Mai 20, 2009 9:34 am

EnTeQuAK hat geschrieben:Oder wo genau tritt die Satzerkennung in Kraft?

Vor allem fällt sie mir in den Snippets auf.
Dann gibt es noch im Ranking Schalter "Position Of Phrase" "Phrases In Text" "Position In Phrase". Ob die sich auf solche Sätze beziehen oder das Suchwort gemeint ist weiß ich nicht.

Die Satzerkennung ist nun in r5964 gemacht wie oben beschrieben. Kann ja nur positive Auswirkungen haben und ist deutlich besser als vorher. Für deine Einwände braucht man wahrscheinlich dann ein Wörterbuch.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Parser Satzerkennung

Beitragvon EnTeQuAK » Mi Mai 20, 2009 10:42 am

Lotus hat geschrieben:
EnTeQuAK hat geschrieben:Oder wo genau tritt die Satzerkennung in Kraft?

Vor allem fällt sie mir in den Snippets auf.
Dann gibt es noch im Ranking Schalter "Position Of Phrase" "Phrases In Text" "Position In Phrase". Ob die sich auf solche Sätze beziehen oder das Suchwort gemeint ist weiß ich nicht.

Die Satzerkennung ist nun in r5964 gemacht wie oben beschrieben. Kann ja nur positive Auswirkungen haben und ist deutlich besser als vorher. Für deine Einwände braucht man wahrscheinlich dann ein Wörterbuch.


Hmm, da währe ne Extension zu Projekten wie aspell, hspell und Konsorten was tolles. Man muss ja schließlich nicht alles selber bauen. Damit hätte man dann auch die unterschiedlichen Sprachen erschlagen.

Nur diese eine Regex bringt imho nur einen winzig kleinen Vorteil, korrekt ist es aber jedenfalls nicht :)
EnTeQuAK
 
Beiträge: 3
Registriert: So Jan 04, 2009 7:21 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast