Voller UTF-8 Support & besseres XHTML

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Voller UTF-8 Support & besseres XHTML

Beitragvon Quix0r » Do Sep 23, 2010 10:50 pm

UTF-8 ist bereits gut im Einsatz in YaCy, jedoch fehlt noch einiges wichtiges, was bei einigen Browsern (z.B. IE) zur inkorrekten Auswahl des Zeichensatzes fuehren kann und z.B. bei Umlauten zu Artefakten fuehren kann.

Es fehlen dann noch zusaetzliche Meta-Angaben in den Header-Angaben, wie content-style-type, content-script-type und/oder language. Auch wird unkorrekterweise Content-Type in der Meta-Angabe gesendet, was aber kleingeschrieben gehoert.

Dann sollte ein "accept-charset" in allen Formularen verwendet werden, was die Kompatibilitaet zu "dummen" Browsern erhoeht (hab bereits gute Erfahrungen mit dem Attribut gemacht!), dies kann sehr komfortabel mit IDEs erledigt werden.

Hier nun erstmal mein Vorschlag fuer die Formluare: (teilweise ist das Attribut vorhanden, jedoch wurde UTF-8 geschrieben, was bei HTML kleingeschrieben gehoert)
- Das ganze Projekt nach Dateimaske *.html (oder wie es sich nennt) durchsuchen
- Nach <form action=" suchen
- Mit <form accept-charset="utf-8" action=" austauschen

Die folgenden Meta-Angaben verwende ich in meinem Projekt ohne spuerbare Nebenwirkungen: (bis heute nichts negatives bekannt geworden)
Code: Alles auswählen
<meta http-equiv="content-type" content="text/html;charset=UTF-8" />
<meta http-equiv="content-style-type" content="text/css" />
<meta http-equiv="content-script-type" content="text/javascript" />
<meta http-equiv="content-language" content="en" />

Die Sprache muss noch dynamisch gesetzt werden (existiert #[language_code]# ?), dann ist es (fast) perfekt.

Es sollte auch im Tag html die Attribute xml:lang="xx" und lang="xx", beide zweistelliger Code, augenommen werden. Wobei xx die jeweils ausgewaehlte Sprache ist. Dies kann mit IDEs automatisch ersetzt werden:
- Das ganze Projekt nach Dateimaske *.html (oder wie es sich nennt) durchsuchen
- Nach <html xmlns="http://www.w3.org/1999/xhtml"> suchen
- Mit <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> austauschen

Hier sollte auch "de" dynamisch gesetzt werden (z.B. wieder #[language_code]#).

Es wurde bereits wo im Forum angedeutet, dass der von YaCy ausgegebene XHTML-Code nicht Strict ist, hier sollte vielleicht "Transitional" genommen werden, da dies "lockerer" ist.

Es sollte auch nicht Content-Language, sondern alles klein geschrieben werden, laut SelfHTML ist diese Zeile korrekt formuliert:
Code: Alles auswählen
<meta http-equiv="content-language" content="en">


Dazu habe ich ein Patch zusammengestellt, wie bei den anderen Patches, ist auch hier patchfremder Code dabei, der bitte reverted wird.

Download URL: http://free-search.yacy/repository/yacy ... .patch.bz2
Alternative URL: http://www.mxchange.org/downloads/yacy/ ... .patch.bz2
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Voller UTF-8 Support & besseres XHTML

Beitragvon Orbiter » Mo Feb 14, 2011 11:58 pm

fix in SVN 7482
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Voller UTF-8 Support & besseres XHTML

Beitragvon Quix0r » Di Feb 15, 2011 12:47 am

Hab dazu meine Patches aktualisiert, soweit ich meine, wird der Wert im Attribut accept-charset klein geschrieben. Hab das soweit wieder umgesetzt.

Die alternativen Download-Links werden derzeit nicht klappen, da ich mit einem Server-Upgrade kaempfe (kein syslog-Host und keine serielle Schnittstelle fuer die ersten Kernelmeldungen machen einen ganz schoen blind und netconsole funktioniert irgentwie nicht. :( ).

Edit: RFC 2045 weiss mehr darueber. Quelle
Zuletzt geändert von Quix0r am Mi Feb 16, 2011 1:38 pm, insgesamt 1-mal geändert.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Voller UTF-8 Support & besseres XHTML

Beitragvon Orbiter » Mi Feb 16, 2011 1:28 pm

das von dir genannte RFC hat gar keine Aussage zu UTF-8, so weit ich das sehe.

selfhtml referenziert in
http://de.selfhtml.org/html/formulare/definieren.htm
auf
http://www.iana.org/assignments/character-sets

Dort wird UTF-8 in uppercase letter geschrieben.

Wer weiss hier weiter?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Voller UTF-8 Support & besseres XHTML

Beitragvon Quix0r » Mi Feb 16, 2011 1:39 pm

Bei der Quelle steht folgendes:
[...]accept-charset (Charsets)[...]

Und Charsets ist hier definiert: http://www.w3.org/TR/xhtml-modularizati ... t_Charsets
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Voller UTF-8 Support & besseres XHTML

Beitragvon Orbiter » Mi Feb 16, 2011 1:56 pm

und wo steht da dass der Wert von accept-charset klein geschrieben wird?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Voller UTF-8 Support & besseres XHTML

Beitragvon Quix0r » Mi Feb 16, 2011 2:02 pm

Ah, jetzt sehe ich, dass z.B. ISO dort gross geschrieben, ASCII dort aber klein?! Und kein Wort ueber UTF-8. Also, okay. Ich gebe nach. :) Nicht laenger mit so etwas aufhalten.

Ich habe nun mein Patch (selbige URL) angepasst, bei ein paar Dateien fehlt noch das Attribut accept-charset (siehe Patch). Ich bin mehr dafuer, dass alles homogen ist und nicht heir und da eines (am Tag 'form') fehlt. :)

Achso, eine Datei hat einen Zeilenumbruch-Mischmasch, Linux- und Windoof-Zeilenumbruch gemischt. Bei Eclipse, kannst du die Sonderzeichen einschalten. Dann siehst du sie auch.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron