Umlaute falsch

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Umlaute falsch

Beitragvon oberon » Di Mai 26, 2009 10:20 pm

Hi,

bei der aktuellen Version yacy_v0.80_20090518_5962.tar.gz geraten bei mir die deutschen
Umlaute durcheinander. Bei einigen gecrawlten Seiten landen die Umlaute der Seitentitel
veraendert im Index. Deshalb werden die Suchergebnisse mit Sonderzeichen statt mit Umlauten
dargestellt. Ich nehme an, dass ich nur irgendeine Einstellung falsch vorgenommen habe.
Allerdings benutze ich im Wesentlichen die Standardeinstellungen. Auch stundenlanges
Googeln hat nicht geholfen. Dasselbe Resultat erhalte ich, wenn ich die aktuelle
Yacy-Version aus dem Repository selbst kompiliere.

Ein exportierter XML-Dump der URLs mit Titel ergibt (unter Linux mit hexdump -C), dass
z.B. bei der Seite http://mallorcahot.com im Titel im Wort "Grundstücke" aus dem
Umlaut ü die drei Bytes ef bf bd werden. Exakt die gleichen drei Bytes (!) sind
im Wort "Geschäftsraum" fuer den Umlaut ä zu finden. Ich lasse Yacy unter Suse 10.3
laufen. Der Befehl locale ergibt:
LANG=de_DE.UTF-8
LC_CTYPE="de_DE.UTF-8"
LC_NUMERIC="de_DE.UTF-8"
LC_TIME="de_DE.UTF-8"
LC_COLLATE="de_DE.UTF-8"
LC_MONETARY="de_DE.UTF-8"
LC_MESSAGES="de_DE.UTF-8"
LC_PAPER="de_DE.UTF-8"
LC_NAME="de_DE.UTF-8"
LC_ADDRESS="de_DE.UTF-8"
LC_TELEPHONE="de_DE.UTF-8"
LC_MEASUREMENT="de_DE.UTF-8"
LC_IDENTIFICATION="de_DE.UTF-8"
LC_ALL=

Der Befehl java -version ergibt:
java version "1.6.0_01"
Java(TM) SE Runtime Environment (build 1.6.0_01-b06)
Java HotSpot(TM) Client VM (build 1.6.0_01-b06, mixed mode)

Der Java-Befehl
System.out.println(java.nio.charset.Charset.defaultCharset());
liefert in einem Java-Programm in der Konsole ausgefuehrt
das Ergebnis UTF-8.

Also scheint alles mit UTF-8 kodiert zu werden, so wie es sein soll. Was kann ich tun,
damit die Umlaute in Yacy richtig behandelt werden?

Vielen Dank fuer jede Hilfe!

oberon
oberon
 
Beiträge: 12
Registriert: Di Mai 26, 2009 10:09 pm

Bug?

Beitragvon oberon » Di Jun 02, 2009 6:28 pm

Beim Crawlen der Seite http://mallorcahot.com gibt die Funktion detectCharset() in htmlFilterInputStream.java
den Wert null zurueck. Dadurch wird in der Funktion parseHtml(...) in plasmaParser.java der Wert von
charset auf UTF-8 gesetzt. Setzt man ihn gewaltsam auf ISO-8859-1, so wird die Webseite korrekt indiziert.

Eigentlich sollte wohl die Funktion detectCharset() der Wert ISO-8859-1 zurueckliefern. Die Webseite
beginnt mit:
----------------- cut here -------------------
<html><head>


<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
----------------- cut here -------------------
Moeglicherweise bringen die zwei Leerzeilen die Funktion detectCharset durcheinander? Die Funktion
scrapeTag0(...) in htmlFilterInputStream.java, die charset=ISO-8859-1 parsen sollte, wird naemlich
gar nicht aufgerufen. Habe ich einen Fehler in meiner YaCy-Konfiguration, oder ist dies ein
Bug in YaCy?
oberon
 
Beiträge: 12
Registriert: Di Mai 26, 2009 10:09 pm

Re: Umlaute falsch

Beitragvon flori » Di Jun 02, 2009 9:55 pm

Das war ein Bug!

Fix in 6014. Aber warum wurde das auskommentiert, weiß jemand etwas dazu?
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Umlaute falsch

Beitragvon Lotus » Di Jun 02, 2009 10:03 pm

5599 "memory leak fixing hacks"
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Umlaute falsch

Beitragvon Orbiter » Mi Jun 03, 2009 12:08 pm

tut mir leid, ich habe keine Ahnung warum ich das auskommentiert habe. Kann nur sein das mir das irgendwie beim Debuggen entwischt ist. Sorry!
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Umlaute falsch

Beitragvon oberon » Mi Jun 03, 2009 5:13 pm

Vielen Dank fuer den schnellen Bugfix, http://mallorcahot.com funktioniert jetzt.
Trotzdem gibt es noch (andere) Probleme mit Umlauten.
Die Seite http://www.swm.de wird von detectCharset() korrekt auf ISO-8859-1 erkannt,
wird durch Browser korrekt dargestellt, aber die Umlaute in Title und Description
von YaCy (YaCy Revision number: 6015) sind falsch:
Description: Stadtwerke München SWM - Strom Wasser Erdgas Fernwärme Bäder M//Card preiswert günstig
Was passiert hier?
oberon
 
Beiträge: 12
Registriert: Di Mai 26, 2009 10:09 pm

Re: Umlaute falsch

Beitragvon Quix0r » Do Jun 04, 2009 1:36 pm

Das sieht nach UTF-8 aus, was aber nicht als solches dargestellt wird. So meine erste Idee. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Umlaute falsch

Beitragvon flori » Do Jun 04, 2009 2:10 pm

Es ist bei der Seite so, dass per HTTP-Header UTF-8 als Charset benannt wird, in der HTML-Datei aber ISO-... steht. In irgendeinem Standard steht, dass der HTTP-Header Vorrang hat, deshalb stellen die meisten Browser richtig dar. Ich werde das bei Gelegenheit auch in YaCy fixen.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Umlaute falsch

Beitragvon Quix0r » Do Jun 04, 2009 2:15 pm

Dann sollten die auch mal die HTML-Ausgabe fixen. Ist dann alles im Einklang. Oder verträgt dass der IE6/7 nicht? Ich habe da mal was gehört, dass er dann einen Download starten will...
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Noch ein Umlautfehler

Beitragvon oberon » Mi Jun 10, 2009 5:01 pm

Noch ein anderer Umlaut-Fehler: Die Seite http://www.trauringe-onlineshop.com/ wird von meinem Linux Firefox 2.0.0.6 korrekt auf ISO-8859-1 erkannt, von YaCy aber wohl auf UTF-8, wie die Description zeigt:

F�r viele Frauen ist der Diamant im Ring ein zus�tzlicher Liebensbeweis des Mannes und daher sehr begehrt

Hier wird im HTTP-Header kein Charset gesendet (nur: "Content-Type: text/html"), und im HTML-Code ist die Angabe des Charset wohl syntaktisch falsch:

<meta http-equiv="content-type" content="text/html;iso-8859-1">

Deshalb nimmt YaCy per Default UTF-8 an. Ich denke, YaCy sollte solche Fehler ähnlich korrigieren wie aktuelle Browser, denn diese Web-Seite ist keine Ausnahme. Oder zunächst einfacher: Wenn weder im HTTP-Header noch im HTML-Header eine korrekte Angabe des Zeichensatzes steht, so durchsucht man den HTML-Header nach etwas, was wie ein Zeichensatz aussieht (anstatt sofort UTF-8 anzunehmen).
oberon
 
Beiträge: 12
Registriert: Di Mai 26, 2009 10:09 pm

Re: Umlaute falsch

Beitragvon Vega » Do Jul 23, 2009 4:00 am

Das gleiche mit http://www.daa-annaberg.de/, trotz neu Craweln der Seite erscheint auf der Suchseite (yacy-SVN ist: 0.910/06177):


Code: Alles auswählen
DAA Annaberg-Buchholz - Ihr Partner f�r Weiterbildung und Umschulung
Lesezeichen empfehlen löschen
DAA Annaberg-Buchholz - Ihr Partner f�r Weiterbildung und Umschulung
http://www.daa-annaberg.de/
Do, 23 Jul 2009 | 14 kbyte | YBR-15 | Info | Bilder


Im Log steht folgendes:

Code: Alles auswählen
I 2009/07/23 04:43:14 PLASMA *Indexed 130 words in URL http://www.daa-annaberg.de/ [Uh8CfQNJ82JB]
        Description:  DAA Annaberg-Buchholz - Ihr Partner f�r Weiterbildung und Umschulung
        MimeType: text/html | Charset: UTF-8 | Size: 775 bytes | Anchors: 26
        LinkStorageTime: 9 ms | indexStorageTime: 19178 ms


Im Quelltext der Seite:

Code: Alles auswählen
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>DAA Annaberg-Buchholz - Ihr Partner für Weiterbildung und Umschulung</title>
<style type="text/css">
body { margin-left:0px; margin-top:0px; }
</style>
<link rel="stylesheet" type="text/css" href="/layout.css">
<link rel="shortcut icon" href="/images/daa-favicon.ico">
<meta name="description" content="Die Deutsche Angestellten-Akademie in Sachsen mit ihren Kundenzentren in, Annaberg-Buchholz, Chemnitz, Dippoldiswalde, Dresden, Leipzig, Plauen und Zwickau bietet ein umfangreiches Aus- und Weiterbildungsangebot im kaufmännischen Bereich, im IT- und Telekommunikationsbereich, im Gesundheitsbereich, im E-Commerce-Bereich und auch in Form von Job-In-Clubs bzw. Coaching-Angeboten, die beim Bewerbungsprozess unterstützen und den Wiedereintritt in den 1. Arbeitsmarkt erleichtern. Die Deutsche Angestellten-Akademie realisiert Qualifizierungen in Vollzeitform und in berufsbegleitender Form. Als Studienzentrum der staatlich anerkannten Fern-Hochschule Hamburg werden in Dresden verschiedene Studiengänge angeboten. Außerdem bietet die DAA verschiedenen Unternehmen auf Anfrage maßgeschneiderte zielgruppenorientierte Firmenschulungen an.">
<meta name="keywords" content="Bildung, Weiterbildung, Umschulung, Altenpflege, Kundenzentrum, DAA, daa, Deutsche Angestellten-Akademie, LQW, Schüler, Bildungsangebot, Projekt, Vermittlung, Jobangebot, Sachsen, Jobvermittlung, Vermittlungsgutschein, Dresden, Leipzig, Zwickau, Plauen, Dippoldiswalde, Annaberg, Personalvermittlung, Personal, Personalsuche, Personalauswahl, Arbeitsplatz, Arbeitssuche, Arbeitsplatzvermittlung, Umschulungen, Einzelumschulung, Einzelumschulungen, Neuer Beruf, Umschulung individuell, MWS, DAA-virtuell, DAA virtuell, individuelles Lernen, Lernprozess, Ausbildung, kaufmännische Ausbildung, IHK, IHK-Abschluss, IHK-Abschluß, bundesweit, Automobilkaufmann, Automobilkauffrau, Bürokaufmann, Bürokauffrau, Kaufmann für Bürokommunikation, Kauffrau für Bürokommunikation, Industriekaufmann, Industriekauffrau, Kaufmann im Gesundheitswesen, Kauffrau im Gesundheitswesen, Kaufmann im Groß- und Außenhandel, Kauffrau im Groß- und Außenhandel, Kaufmann in der Grundstücks- und Wohnungswirtschaft, Kauffrau in der Grundstücks- und Wohnungswirtschaft, Reiseverkehrkaufmann, Reiseverkehrskauffrau, Kaufmann für Spedition und Logistikdienstleistung, Kauffrau für Spedition und Logistikdienstleistung, Veranstaltungskaufmann, Veranstaltungskauffrau, Verlagskaufmann, Verlagskauffrau, Versicherungskaufmann, Versicherungskauffrau, Werbekaufmann, Werbekauffrau, Informatikkaufmann, Informatikkauffrau, IT-Systemkaufmann, IT-Systemkauffrau, Fachinformatiker, Fachrichtung, Fachrichtung Anwendungsentwicklung, Fachinformatikerin Fachrichtung Systemintegration, Systemintegration, neue Berufsbilder, kaufmännische Ausbildung, Selbstlerntechnik, Selbstlern, Lernprozessbegleitung, CBT, WBT, computer based training, web based trainiung, selbstlernen, Modulare Weiterbildung, modulare Weiterbildung, modular, Weiterbidlung, Steuerrecht, Rechnungswesen, BWL, VWL, Betriebswirtschaftslehre, Volkswirtschaftslehre, kaufmännische Betriebslehre, spezielle Wirtschaftslehre, Wirtschaftslehre, Grundlagen des Rechnungswesen, Kfm. Rechnen, Rechnungswesen für Fortgeschrittene, Bilanzierung, Kosten- und Leistungsrechnen, Kosten- und Leistungsrechnung, Kostenrechnung, Personalwesen, Lohn- und Gehaltsabrechnung, Kfm, Grundlagen, Wirtschaftslehre, Material- und Absatzwirtschaft, Materialwirtschaft, Absatzwirtschaft, Auftrags- und Bestellwesen, Auftragsbearbeitung, Informatik, EDV-Grundlagen, EDV, Textverarbeitung, Word, Tabellenkalkulation, Excel, Praxisabrechnungssysteme, Praxismanagement, Sozialversicherungsrecht, Fachterminologie, Handelsenglisch für Anfänger, Handelsenglisch für Fortgeschrittene, Handelsenglisch, Businessenglish, LCCI-Prüfung, LCCI, DAA-Technikum, DAG-Technikum, Fortbildung, Lehrgang, Fernstudium, Fernunterricht, Techniker, Informatiker, technischer Betriebswirt, Fachschule, gemeinnützige, Staatlich geprüfter Techniker, Staatlich geprüfter Informatiker">
<meta name="language" content="German, de, deutsch">
<meta name="revisit-after" content="2 days">
<meta name="robots" content="index,follow">
<meta name="googlebot" content="index,follow">
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>



Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Umlaute falsch

Beitragvon Vega » Di Sep 15, 2009 8:25 am

Neustart des Indexes mit SVN 6312 - siehe Screenshots.....Kann sich das nochmal jemand ansehen ?

Gruß,
Thomas

Yacy1.jpg
Yacy1.jpg (242.21 KiB) 1645-mal betrachtet

Yacy2.jpg
Yacy2.jpg (221.07 KiB) 1643-mal betrachtet
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Umlaute falsch

Beitragvon Orbiter » Di Sep 15, 2009 12:58 pm

so sieht das bei denen aus:
Code: Alles auswählen
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">

<html>
<head>
<title>Heise & Hübner</title>
<meta name="keywords" content="" />
<meta name="description" content="" />
</head>
<frameset rows="100%">
<frame src="http://www.elektro-heise-huebner.de/" title="Heise & Hübner" frameborder="0" noresize="noresize"/>
<noframes>
<body>
<h1>Heise & Hübner</h1>
<p><a href="http://www.elektro-heise-huebner.de/">http://heise-huebner.de/</a></p>
</body>
</noframes>
</frameset>
</html>

ich würde mal sagen: nicht richtig Codiert. Schon alleine das '&' ohne weitere Quotierung dürfte nicht gehen, ein Zeichensatz ist auch nicht angegeben. Da ist YaCy wohl zickig.

Ein kleiner Gegentest: http://www.moebel-huebner.com/ funktioniert richtig.

Hier müsste man in YaCy ein wenig mehr Toleranz und gleichzeitig auch Intelligenz bei der Erkennung der Zeichensätze einbauen, @F1ori: du kennst dich hier viel besser aus. Ideen?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Umlaute falsch

Beitragvon Low012 » Di Sep 15, 2009 1:26 pm

Zur Ergänzung zu Orbiters Nachricht: Auch im HTTP-Header wird keine Codierung mitgegeben.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Umlaute falsch

Beitragvon Vega » Mo Dez 21, 2009 10:54 am

http://www.loewen-apotheke-annaberg.de/ wird auch mit falschen Umlauten Angezeigt, siehe:
umlaute.png
umlaute.png (25.43 KiB) 1305-mal betrachtet



Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Umlaute falsch

Beitragvon Quix0r » Mo Dez 21, 2009 11:49 am

Meine Idee, wenn machbar:
- Auf UTF-8 testen (ist halt universell)
+ Ist es UTF-8? -> Keine Umwandlung
+ Ist nicht UTF-8 -> Umwandeln von [format] nach UTF-8, damit im Programm alles gleich aussieht.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Umlaute falsch

Beitragvon Vega » Do Sep 23, 2010 8:52 am

Push - ich pushe das Thema mal, das ist ein sehr ärgerlicher Bug den wir seit Mai 2009 mit schleppen, und der mir in letzter Zeit wieder verstärkt begegnet - um eine Version 1.0 zu erreichen müssen solche Dinge verschwinden, ansonsten ist der Crawler so nur bedingt einsetzbar.... :(
Sicherlich sind auch die Seitenbetreiber schuld, die teilweise keine oder eine Fehlerhafte Kodierung angeben.....aber Yacy muss da toleranter werden und diese Fehler größtenteils abfangen bzw. brauche ich eine Übergangslösung um das zur Not direkt in den Tabellen/geparsten Metadaten korrigieren zu können.

Ich habe einen Robinson-Perr aufgesetzt http://78.46.76.144:8081, mit dem crawle ich die Links/Mitglieder Seiten des suma-ev, sucht mal auf dieser Kiste nach:
http://78.46.76.144:8081/yacysearch.html?display=0&query=gesundheits+site:www.deutscheseiten.de&maximumRecords=10&startRecord=0&resource=local&verify=true&nav=all&urlmaskfilter=.*&prefermaskfilter=&cat=href&constraint=&contentdom=text&former=gesundheits...
oder....
http://78.46.76.144:8081/yacysearch.html?query=suma-ev&Enter=Search&contentdom=text&former=Intares&maximumRecords=10&startRecord=0&verify=ifexist&resource=local&nav=all&urlmaskfilter=.*&prefermaskfilter=&depth=0&cat=href&display=0&constraint=&meanCount=0

Grüße aus Dresden
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Umlaute falsch

Beitragvon flori » Fr Sep 24, 2010 2:50 pm

Das im IndexCreation-Menü der Titel der Seite manchmal in der falschen Encoding angezeigt wird, hab ich jetzt gefixt. Jetzt sollte YaCy alle Encodings verstehen, die Standardkonform angegeben wurden. Für alle anderen Fälle muss man raten (z. B. http://www.nebel.de/projekte/Vortrag-20050524/). Einfach Browser wie z. B. konsolenbasierte scheitern auch daran. Aber zumindest UTF-8 und ISO-8859-15 sollte leicht mit einer Heuristik unterscheidbar sein.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Umlaute falsch

Beitragvon flori » Sa Sep 25, 2010 7:10 pm

So, wenn der Server keine Zeichensatz angibt und in der Datei auch nichts steht, wird jetzt der Zeichensatz mit icu4j über eine Heuristik ermittelt. Wenn der Server nicht einen falschen Zeichensatz angibt oder die Datei einfach Müll ist, sollten jetzt alle Zeichen korrekt angezeigt und indiziert.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Umlaute falsch

Beitragvon Orbiter » Sa Sep 25, 2010 8:26 pm

supergut!
aaaber ... dein Commit in SVN 7186 hab ich in der SVN Mailingliste zum approval geschickt bekommen weil das Log so groß war ... die ganze jar lib wurde als ascii geschrottet gelogt. Ausgerechnet bei icu4j hat das jar offenbar ein falsches mime bekommen?? Naja macht nichts, betrifft wohl nur die Mailingliste.
Mail kann ich daher nicht approven, aber zur Dokumentation ein Screenshot hier:
icu4j-commit.gif
icu4j-commit.gif (77.15 KiB) 1186-mal betrachtet
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Umlaute falsch

Beitragvon flori » Sa Sep 25, 2010 9:07 pm

Oje, will man Encodings an der einen Stelle fixen gehen sie an der anderen Stelle kaputt :)
Mime-type ist jetzt in 7187 richtig gesetzt
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Umlaute falsch

Beitragvon Vega » So Sep 26, 2010 4:47 pm

Super !!! Leider hat mich eine Erkältung ziemlich ausgebremst und alleinerziehender Vati bin ich dieses Wochenende auch noch - so das ich erst ab Montag intensiv testen kann...ich hab aber die Indexe der spezialisierten SUMS-Peers gelöscht und werde alles neu craweln.....

Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron