Apache Tika

Ereignisse, Vorschläge und Aktionen

Apache Tika

Beitragvon PCA42 » Do Nov 10, 2011 4:48 pm

Da bin ich heute über Golem drauf gestoßen worden: http://tika.apache.org/. Kann man das nicht in Yacy als "den" Parser einbauen?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Apache Tika

Beitragvon Orbiter » Do Nov 10, 2011 5:25 pm

ja wie bei vielen Dingen haben wir in YaCy eine Parser-Sammlung eingebaut, bevor es Tika gab. Tika hab ich mir schon angesehen: das ist auch 'nur' ein Parser-Bündel genau wie wir es haben; teilweise benutzen die sogar genau die gleichen Libraries wie wir.

Es gibt hier mehrere Probleme: Tika hat ein Dokumentenformat, das nach dem Parsen raus kommt das natürlich anders ist als unseres, wenn man Tika nehmen würde müsste man alle Dokumentenobjekte in YaCy umstellen. Dazu kommt dass unser html-Parser wesentlich mehr kann als das Ding in Tika; das liegt bei uns auch daran dass wir html parsen im Hinblick auf das Auffinden von Links.

Insgesamt bin ich aber trotzdem dem ganzen positiv eingestellt und würde mal gucken wollen wo man wieviel machen muss, aber erst nachdem rc2 mit jetty läuft.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast