Datum erkennen

Ideen und Vorschläge sind willkommen.

Datum erkennen

Beitragvon thq » Do Jan 08, 2009 3:55 pm

Kann man YaCy nicht beibringen ein Datum zu erkennen, so das YaCy z.B. aus "Verfasst: 12.10.2008 20:57" dann ein 12102008 102008 und 2008 macht, so könnte man schon gezielt nach ein Datum suchen und es werden nur noch 3 Wörter anstatt Verfasst 12 10 2008 20 und 57 gespeichert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Datum erkennen

Beitragvon Orbiter » Do Jan 08, 2009 5:06 pm

das ist gut, nur würde ich das Datum in der normalisierten Form anders herum notieren, also 20081012 200810 2008, weil darauf die lexikografische Ordung auch die numerische Datums-Ordnung ist, d.h. das liesse sich schöner sortiert anzeigen.
Dazu müsste man im Condenser eine Datums-Erkennung einbauen...
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Datum erkennen

Beitragvon thq » Do Jan 08, 2009 5:14 pm

Das ist doch schön, wie es gespeichert wird ist ja "egal" war ja auch nur angedacht. YaCy müsste ja auch noch erkennen ob die 10 für Tag oder Monat steht, dafür muss man vielleicht die ganze Seite analysieren.

Vielleicht sollte man auch noch um beim Beispiel zu bleiben die 1012 speichern.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Datum erkennen

Beitragvon Orbiter » Do Jan 08, 2009 5:27 pm

entwerft mal ein paar regexp um ganz bestimmte Datumsvormate zu erkennen. Vielleicht ist das ganze gar nicht aufwendig einzubauen.
Bitte aber nicht jetzt vorm Release irgendwas einchecken, das Release will ich die nächsten Tage machen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Datum erkennen

Beitragvon thq » Do Jan 08, 2009 11:08 pm

Wann sollen die den greifen, nachdem YaCy den Text bearbeitet hat oder vorher ?

"Verfasst: 08.01.2009 18:14", ein "Verfasst 08 01 2009 18 14" ist ja auch noch zu erkennnen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Datum erkennen

Beitragvon Orbiter » Do Jan 08, 2009 11:32 pm

Der condenser geht so vor, das er zunächst Sätze aufzählt, und dann darin Wörter. Das Problem ist, das er möglicherweise wegen Datumsangaben fälschlicherweise Sätze sieht, wo keine sind, beziehungsweise nicht enden. Insofern wäre es auch schon gut, Datumsangaben zu erkennen, bevor das Satz-Parsen statt findet. D.h. die regexp müssen auf nicht-geparste Texte passen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Datum erkennen

Beitragvon thq » Fr Jan 09, 2009 2:10 pm

Hier mal ein RegEx für das Datumsformat 31.12.2008 23:59. Gefunden wird das Datum mit oder ohne Uhrzeit und die Jahre 1000-2999. Gespeichert werden Tag, Monat und Jahr.

([0-2][1-9]|[1-2][0-9]|3[0-1])\.(0[1-9]|1[0-2])\.([1-2]\d{3})(?:\s(?:0[1-9]|1[0-9]|2[0-3]):[0-5][0-9])?

Wir sollten jetzt aber erstmal gucken welche Schreibweisen es alles gibt.



Vielleicht sollte man bestimmte Datumsangaben komplett löschen wie z.B. Aktuelle Zeit: 09.01.2009 14:56, oder kein Datum speichern wenn in der URL forum. vorkommt.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Datum erkennen

Beitragvon Orbiter » Fr Jan 09, 2009 2:15 pm

ok!
Ich finde das Konzept ziemlich wichtig für solche Seiten wie
http://ftp.uni-erlangen.de/pub/mirrors/
wo nur ein directory listing ist. Da muss das Datum erkannt werden sonst ist das nur Datenmüll.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Datum erkennen

Beitragvon thq » Fr Jan 09, 2009 2:33 pm

Jetzt kann der RegEx die Formate

31.12.1000 23:59
16-May-2005 12:56 (Mai, May, Okt, Oct, Dez, Dec)

([0-2][1-9]|[1-2][0-9]|3[0-1])(?:\.|-)(0[1-9]|1[0-2]|Jan|Feb|Mar|Apr|Ma(?:i|y)|Jun|Jul|Aug|Sep|O(?:c|k)t|Nov|De(?:c|z))(?:\.|-)([1-2]\d{3})(?:\s(?:0[1-9]|1[0-9]|2[0-3]):[0-5][0-9])?

Fehlen noch die Wochentage, Ausländische Schreibweise ... der RegEx wird nicht klein.


Für erkannte Seiten wie http://ftp.uni-erlangen.de/pub/mirrors/ ist eine "Blacklist" die Wörter wie Index, Name, Last modified, Size, Description filtert bestimmt auch nicht verkehrt.
Zuletzt geändert von thq am Fr Jan 09, 2009 2:57 pm, insgesamt 1-mal geändert.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Datum erkennen

Beitragvon Orbiter » Fr Jan 09, 2009 2:55 pm

nicht ganz, gerade die Wörter 'index of' und 'last modified' sind Schlüsselwörter, um solche Seiten zu finden. Das macht der condenser, um dann das Flag 'index of' zu setzten, das ja bei der Suche genutzt werden kann. Im Prinzip könnte man die Wörter dann auch weglassen, aber ich muss da erst noch mal drüber nachdenken.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Datum erkennen

Beitragvon thq » Fr Jan 09, 2009 3:00 pm

Ich habe ja geschrieben erkannte Seiten, damit gehe ich davonaus das das "index of" Flag schon gesetzt ist.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Datum erkennen

Beitragvon Huppi » Sa Jan 10, 2009 1:30 am

Wenn ich Dateinamen z.B. von Konzeptpapieren oder Präsentationen mit einem Datum versehen möchte, dann wähle ich meistens:
yyyymmdd_weitererDateiname.xyz (20090109_Strategieentwurf_YaCy.doc)

seltener:
yymmdd_weitererDateiname.xyz (090109_KIT_YaCy.ppt)

Datumsangaben in formalen Dokumenten in "unserem" ISO 9001 Qualitätssystem: 09. Jan 2009

Bei bestimmten Datenbankeintragungen nutze ich 20090109: ...
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Datum erkennen

Beitragvon Phiber » Sa Jan 10, 2009 1:50 am

Denkt an das Verdrehen von Tagen und Monaten. 9/11 war nicht am 9ten November ;)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Datum erkennen

Beitragvon Lotus » Mo Jan 12, 2009 8:55 am

Orbiter hat geschrieben:Der condenser geht so vor, das er zunächst Sätze aufzählt, und dann darin Wörter. Das Problem ist, das er möglicherweise wegen Datumsangaben fälschlicherweise Sätze sieht, wo keine sind, beziehungsweise nicht enden.

*auskram*
viewtopic.php?p=9039
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste