Auf www.tvtv.de Fehler die Bilder

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » So Aug 10, 2008 9:27 am

Hallo,

ich habe die SVN5044. Auf der Seite http://www.tvtv.de werden die Bilder nicht angezeigt, wenn ich den Proxy benutze. Im Log steht beispielsweise:

Code: Alles auswählen
W 2008/08/10 10:22:42 PROXY Error while processing request 'GET http://www.tvtv.de/tvtv/resource?oefile=/portaldocs/images/epg.gif HTTP/1.1':
Session_127.0.0.1:8001#0
Connection reset


Kann sich das mal wer anschauen, da mein Wireshark anzeigt, dass alle Daten korrekt uebertragen werden.

tschuess

celle
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Sa Aug 23, 2008 4:18 pm

Hallo,

ich habe mal bezüglich dieses Problems gedebuggt. Es scheint generell über den Proxy Probleme mit verschiedenen Zeichenkodierungen zu geben. Das Problem auf tvtv.de ist, dass die Bilder vom Proxy als UTF-8 interpretiert werden, dann zum Client weiter laufen und der die wegen dem Encoding Header nochmals mit UTF-8 interpretiert. Ich bin der Meinung, dass der Proxy überhaupt kein Encoding interpretieren sollte, sondern alles 1:1 an den Client weiterleitet. Wenn eine andere Meinung oder Gründe bestehen klärt moch auf. Ich habe deshalb das Encoding bei jeglichen Charset Interpretationen auf ISO-8859-1 gestellt. Damit scheint keine Interpretation der Daten zu erfolgen. Damit ist das Problem von tvtv.de behoben. Etwas unsicher bin ich mir beim "htmlFilterWriter", weil ich nicht genau weiß was dort passiert und dann der Crawler eventuell "kaputte" Daten erhält.

Weiter ist mir ein Problem beim HTTP POST über den Proxy aufgefallen. Deshalb kamen bei meinem letzten POST die Sonderzeichen kaputt an, da diese auch nicht 1:1 durchgeschleust, sondern bearbeitet werden. Alle meine Änderungen sind diese:

Code: Alles auswählen
svn diff source\de\anomic\http\httpdProxyHandler.java
Index: source/de/anomic/http/httpdProxyHandler.java
===================================================================
--- source/de/anomic/http/httpdProxyHandler.java        (Revision 5073)
+++ source/de/anomic/http/httpdProxyHandler.java        (Arbeitskopie)
@@ -547,12 +547,14 @@
                 // make a transformer
                 theLogger.logFine(reqID +" create transformer for URL " + url);

                 //hfos = new htmlFilterOutputStream((gzippedOut != null) ? gzippedOut : ((chunkedOut != null)? chunkedOut : respond), null, transformer, (ext.length() == 0));
-                final Charset charSet = httpHeader.getCharSet(responseHeader);
+                //final Charset charSet = httpHeader.getCharSet(responseHeader);
+                final Charset charSet = Charset.forName("ISO-8859-1");
                 hfos = new htmlFilterWriter(outStream,charSet, null, transformer, (ext.length() == 0));
             } else {
                 // simply pass through without parsing
                 theLogger.logFine(reqID +" create passthrough for URL " + url + ", extension '" + ext + "', mime-type '" + responseHeader.mime() + "'");
-                hfos = new OutputStreamWriter(outStream, httpHeader.getCharSet(responseHeader));
+                //hfos = new OutputStreamWriter(outStream, httpHeader.getCharSet(responseHeader));
+                hfos = new OutputStreamWriter(outStream, Charset.forName("ISO-8859-1"));
             }

             // handle incoming cookies
@@ -799,7 +801,8 @@
         try {
             final InputStream data = res.getDataAsStream();
             if (data == null) return;
-            final Charset charSet = httpHeader.getCharSet(res.getResponseHeader());
+            //final Charset charSet = httpHeader.getCharSet(res.getResponseHeader());
+            final Charset charSet = Charset.forName("ISO-8859-1");
             serverFileUtils.copyToWriter(new BufferedInputStream(data), hfos, charSet);
         } finally {
             res.closeStream();
@@ -811,7 +814,8 @@
         try {
             final InputStream data = res.getDataAsStream();
             if (data == null) return;
-            final Charset charSet = httpHeader.getCharSet(res.getResponseHeader());
+            //final Charset charSet = httpHeader.getCharSet(res.getResponseHeader());
+            final Charset charSet = Charset.forName("ISO-8859-1");
             serverFileUtils.copyToWriters(new BufferedInputStream(data), hfos,new BufferedWriter(new OutputStreamWriter(byteStream, charSet)) , charSet);
         } finally {
             res.closeStream();
@@ -1039,7 +1043,8 @@
             }
             if (chunked != null)  chunked.finish();
             */
-            writeContent(res, new BufferedWriter(new OutputStreamWriter((chunked != null) ? chunked : countedRespond)));
+            //writeContent(res, new BufferedWriter(new OutputStreamWriter((chunked != null) ? chunked : countedRespond)));
+            writeContent(res, new BufferedWriter(new OutputStreamWriter((chunked != null) ? chunked : countedRespond, Charset.forName("ISO-8859-1"))));

             countedRespond.flush();
             } finally {


Ist das so ok, oder mache ich dadurch etwas kaputt?

tschüss

celle
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » Di Aug 26, 2008 5:38 pm

Hab das jetzt geändert, dass binäre Daten direkt weitergegeben werden. D.h. vor allem Bilder werden direkt geladen und nicht als UTF-8 dekodiert und wieder kodiert (dabei kam Müll raus). Dabei wird die Entscheidung auf Grund des 'content-type' im Header geliefert. Es werden alle Typen 'image', 'audio' und 'video' sowie mit Subtyp 'application/octet-stream' direkt an den Client und ggf. den Cache weitergereicht.

Falls ein Webserver immer 'application/octet-stream' verwendet könnte das evtl. Probleme mit dem parsen machen?!?
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Di Aug 26, 2008 6:33 pm

Hallo,

ich habe den Patch mal eingespielt. Es scheint zu funktionieren, ich kann jedoch hier weiter nicht mit Sonderzeichen über den Proxy posten (äÄöÖüÜß), bzw. wenn ich auf Vorschau klicke kommen verstümmelte Umlaute zurück (benutzt POST). Da müsste man noch mal schauen.
Ich habe das bei mir lokal erstmal wie du beim GET bei isBinary gemacht (also 1:1 kopieren). Das geht erstmal.

tschüss

celle
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » Mi Aug 27, 2008 8:46 am

bei mir gehts: äöüäߧ$%&€ (über Proxy, Firefox 3)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

öäüß@€

Beitragvon Lotus » Mi Aug 27, 2008 12:40 pm

öäüß@€
YaCy r5035 / Firefox 2
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Mi Aug 27, 2008 5:46 pm

äöüß
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Mi Aug 27, 2008 5:49 pm

Hallo,

wie Ihr seht das reine Posten schon, jedoch kann ich nicht vorher auf Vorschau klicken vor dem Absenden, dann passiert das:

����

tschuess

celle

p.s. SVN 5089, Windows XP, Firefox 3.0.1
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon flori » Mi Aug 27, 2008 6:33 pm

����
???
SVN 5089, *Windows XP*, Firefox 3.0.1
Außerdem hört der Ladebalken bei POST-Seiten nicht mehr auf zu laden.

PS: Der Internet Explorer 6.0 zeigt die POST-Seiten wegen encoding-Problemen gar nicht erst an
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » Mi Aug 27, 2008 8:33 pm

öäüߧ$%&€ (erst Vorschau dann Absenden)

svn 5089, Linux i686; Firefox/3.0.1
Zuletzt geändert von DanielR am Mi Aug 27, 2008 8:36 pm, insgesamt 1-mal geändert.
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » Mi Aug 27, 2008 8:34 pm

bei Windows-Bugs kann ich schlecht testen :/
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » Mi Aug 27, 2008 9:45 pm

flori hat geschrieben:Außerdem hört der Ladebalken bei POST-Seiten nicht mehr auf zu laden.

Ist gefixt in 5091 (nach dem senden hat beim POST ein finish() gefehlt). Evtl. löst das auch andere Probleme?
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon flori » Mi Aug 27, 2008 10:30 pm

????

Das Lade-Problem ist gel�st, das Encoding-Problem besteht weiterhin...
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Do Aug 28, 2008 6:29 pm

Hallo,

geht bei euch http://de.gentoo-wiki.com/Gentoo_in_VMware?

Mein Firefox 3 / Windows XP meint über den Proxy, dass das Encoding nicht passt. Wenn ich "isBinary(..)" immer auf true stelle geht es.

tschüss

celle
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » Do Aug 28, 2008 10:36 pm

celle hat geschrieben: Wenn ich "isBinary(..)" immer auf true stelle geht es.

Dann wird immer 1:1 weitergeleitet. Ich habe das nicht als default gemacht, da ich nicht weiß ob das indizieren dadurch beeinträchtigt wird. Aus irgendeinem Grund muss das mit dem encoding doch gemacht worden sein!?
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Fr Aug 29, 2008 6:16 am

> Aus irgendeinem Grund muss das mit dem encoding doch gemacht worden sein!?

Ich weiß, aber ich würde auch gerne wissen warum, denn meiner Meinung nach ist es sinnvoller das 1:1 durchzureichen und wenn nötig nur für das indexieren das zu konvertieren.

Lass mich raten die Gentoo Seite aus dem Post geht bei dir.

tschüss

celle
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon flori » Fr Aug 29, 2008 9:45 am

celle hat geschrieben:geht bei euch http://de.gentoo-wiki.com/Gentoo_in_VMware?


Ja, getestet mit Windows XP, SVN 5091, Firefox und IE und Linux

Das Problem besteht nur bei Steiten mit der POST-Methode.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon celle » Fr Aug 29, 2008 5:12 pm

Hallo,

das Problem mit der Gentoo Seite scheint bei mir an einem Problem mit dem lokalem HTCACHE gelegen zu haben. Ich habe den Cache einfach mal geloescht jetzt geht es. Bleibt also noch das POST Problem.

Wer hat die Klasse eigentlich geschrieben? Derjenige sollte eigentlich wissen warum dort das Encoding interpretiert wird.

tschuess

celle
celle
 
Beiträge: 47
Registriert: Mi Jun 27, 2007 11:52 am

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon flori » Do Sep 04, 2008 11:00 pm

Ich hab jetzt mehr herausgefunden. Das POST-Problem tritt nicht nur unter Windows auf.
Es tritt anscheinend immer auf, wenn die Seiten-Zeichenkodierung anders ist als die System-Zeichenkodierung.

Konstruiertes Beispiel für UTF8-Systeme: http://test.f1ori.de/
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » So Sep 07, 2008 8:26 am

Danke für die Testseite. Da das beim GET funktioniert, ist das sicherlich nicht sooo schwer zu fixen ;)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon DanielR » So Sep 07, 2008 2:11 pm

Ich hab da was gefunden. Versuch mal svn 5021

Edit: Kann ich ja selber machen :? fixed
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Auf www.tvtv.de Fehler die Bilder

Beitragvon flori » So Sep 07, 2008 8:13 pm

Vielen Dank!
Es funktioniert auch wieder unter Windows.
flori
 
Beiträge: 245
Registriert: Mi Jun 27, 2007 10:17 pm
Wohnort: Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 1 Gast

cron