content-language

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

content-language

Beitragvon kilian » Mo Feb 10, 2014 6:41 pm

Hallo,

wie ermittelt YaCy die content-language eines Dokumentes? Diese kann ja sowohl im HTTP-Header übertragen werden, als auch in den HTML-Meta-Tags, auf verschiedene weisen, stehen.


Viele Grüße
Kilian
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: content-language

Beitragvon kilian » Di Mär 25, 2014 4:02 pm

Leider ist obige Frage relevanter denn je. Wir brauchen den Sprachfilter wohl zwingend.
kilian
 
Beiträge: 79
Registriert: Mi Feb 23, 2011 11:34 am
Wohnort: Bayern

Re: content-language

Beitragvon Orbiter » Di Mär 25, 2014 5:33 pm

wir haben in der Vergangenheit mit einem Voting aus drei Kriterien gearbeitet:
- Metadaten im html Header (content-language und DC.language)
- Top-Level-Domain
- statistische Analyse der Buchstabenhäufigkeiten mit Ähnlichkeitstest auf Referenz zu Wikipedia-Artikeln.

Alle drei Methoden sind äusserst fehlerbehaftet, auch ein Voting aus den drei Methoden ist recht fehlerhaft.
Wenn du weitere Kriterien kennst, nur her damit!
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: content-language

Beitragvon gTSj » Do Mär 27, 2014 10:26 pm

Ich habe noch weitere Kriterien:

Im HTTP-Header stehen manchmal Informationen wie z.B. diese Zeile:
Code: Alles auswählen
Content-Language: de

Die Wikipedia-Server machen so etwas beispielsweise. Ist ein standardkonformes HTTP-Header-Feld.

Außerdem haben viele Websiten einen HTML- oder XHTML-Header, in dem z.B. folgendes drin steht:
Code: Alles auswählen
<html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="de" xml:lang="de">


Einige Websiten haben neben den genannten content-language und dc-language auch noch ein og:locale Feld wie z.B. heise.de:
Code: Alles auswählen
<meta property="og:locale"      content="de_DE" />

Weitere Infos zum Open Graph Protocol gibts hier: http://ogp.me/ – dieses Feature wird auch von Facebook eingesetzt, um die Sprache zu erkennen.

An sonsten könnte der Quellcode von Google Chrome/Chromium weitere Anhaltspunkte liefern. Dort gibt es ja das (nervige) Feature, dass automatisch ein Hinweis eingeblendet wird, der eine Übersetzung der Website anbietet, falls sie nicht Deutsch ist.
gTSj
 
Beiträge: 21
Registriert: Mo Jan 27, 2014 10:49 pm

Re: content-language

Beitragvon gTSj » Do Mär 27, 2014 10:29 pm

Zur Buchstabenhäufigkeit: Wäre es nicht einfacher, bestimmte Wörter zu zählen? Jedenfalls wäre dieses Kriterium eindeutiger. Es müsste sich nur jemand die Mühe machen, Wörter mit Sprachen zu korrelieren…
gTSj
 
Beiträge: 21
Registriert: Mo Jan 27, 2014 10:49 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste