SVN 5620: Loader hängt an einigen Seiten

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

SVN 5620: Loader hängt an einigen Seiten

Beitragvon PCA42 » Mi Feb 18, 2009 9:40 pm

Der Loader will einige Adressen einfach nicht laden. Sind auch nach ca. 10 Minuten nicht raus.
Bsp.:
http://media.portal.muenchen.de/5/mde/de_verkehr/236770255/
http://media.portal.muenchen.de/5/mde/de_verkehr/1665469433/Top/
Liefern alle ein 1 Pixel Gif.
Hängt auch an:
http://www.bijouteria.ch/index.html
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon Orbiter » Mi Feb 18, 2009 10:24 pm

bei den ersten beiden Links bekomme ich auch über den Browser nix.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon bluumi » Mi Feb 18, 2009 11:58 pm



da steht ein UserTrackingServer dahinter. Der des Users Spuren aufzeichnet und dies mit 1x1 Pix Grafik.
Nicht verzweifeln, bläcklisten :-D

Open AdStream 5.8 - Portal München Betriebs GmbH


http://media.portal.muenchen.de/5/(egal ... Toll/Spass
:mrgreen: :mrgreen:
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon PCA42 » Do Feb 19, 2009 5:25 am

bluumi hat geschrieben:da steht ein UserTrackingServer dahinter. Der des Users Spuren aufzeichnet und dies mit 1x1 Pix Grafik.
Nicht verzweifeln, bläcklisten :-D

Ich kann nicht jede Seite auf die Black-List packen, die mal nicht "normal" reagiert. Ich denke ein Timeout im Loader sollte hier helfen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon bluumi » Do Feb 19, 2009 8:32 am

PCA42 hat geschrieben:Ich kann nicht jede Seite auf die Black-List packen, die mal nicht "normal" reagiert. Ich denke ein Timeout im Loader sollte hier helfen.

Du verstehst da was falsch, ein Timeout nützt bei Obiger Seite rein garnichts. Aber was der Server ausliefert ist ABSICHTLICH nur ein 1x1 Pix Gif!

Würde der Server nicht reagieren, ja, dann nützt ein Timeout. Aber wenn der Server programmiert ist ein 1x1 Pix Gif zu liefern und man bekommt das gif, so gibt es keinen Timeout.

document.write ('<A HREF="http://media.portal.muenchen.de/5c/UNKNOWN/148636654/UNKNOWN/default/empty.gif/35353035353066323439396339306430" target="_blank"><IMG SRC="http://media.portal.muenchen.de/0/default/empty.gif" WIDTH=2 HEIGHT=2 ALT="" BORDER=0 BORDER="0"></A><div style="position:absolute;top:-10px;z-index:500"><img src="http://media.portal.muenchen.de/5/UNKNOWN/148636654/UNKNOWN/default/empty.gif/35353035353066323439396339306430?_RM_EMPTY_&" Width="1" Height="1" Border="0"></div>');

Riecht für mich wie gesagt nach dem Auswerfen von empty.gif, egal was kommt und wolle :)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon PCA42 » Do Feb 19, 2009 4:22 pm

Dann verpack ich das mal anders:
Wenn Yacy versucht, die genannte Seite zu crawlen, wird ja das inzwischen bekannte Gif ausgeliefert. Das ändert bei mir aber nichts daran, dass der Link weiterhin im Loader hängt und damit dort einen Platz blockiert. Wenn ich jetzt noch ein paar von den netten Gifs lade: Loader voll, nix mehr Crawlen. Wenn da kein Timeout hilft, muss es doch einen anderen Weg geben, den Link aus dem Loader zu bekommen und den Platz wieder freizugeben.

Yacy muss beim Crawlen "einfach laufen". Es kann nicht sein, dass ich dort Seiten, die (un-)lustige kleine Gifs ausliefern, manuell auf die Blacklist packen muss. Der Loader muss in einer Art und Weise überwacht werden, dass er nicht durch bestimmte Verhaltensweisen verschiedener Server zuläuft und dann kapituliert. Und ich verstehe das unter Timeout, wenn dies nach einer gewissen Zeitspanne erfolgt.

Ich möchte Yacy auch einfach mal ein paar Woche mit allen Funktionen laufen lassen, ohne dass ich solche Dinge kontrollieren muss. Wenn das mal geht, dann ist richtig was erreicht worden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon thq » Do Feb 19, 2009 4:38 pm

Was mich wundert ist das so ein Link überhaupt in der Crawler-Queue landet. Es ist doch eindeutig als Image erkennbar und selbst wenn man diesen link jetzt als "Bild" speichern möchte bezieht man die Informationen ja aus dem Link selbst oder der Seite wo der Link platziert ist ist. Wieso soll/wird dieser Link gecrawlt ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon PCA42 » Do Feb 19, 2009 4:51 pm

thq hat geschrieben:Was mich wundert ist das so ein Link überhaupt in der Crawler-Queue landet.

Das kann ich leider nicht nachvollziehen. Ich hatte mir diesen Link als Remote-Crawl "eingefangen". Wenn der ausliefernde Peer dort über die Start-Seite den richtige Eingang gefunden hat und dann dort Crawlen durfte (Identifizierung via IP oder was auch immer durch den Server) hat er die Probleme ja nicht und produziert für sich ja gültige Links.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: SVN 5620: Loader hängt an einigen Seiten

Beitragvon bluumi » Do Feb 19, 2009 5:52 pm

ok, jetzt hab ichs verstanden :) - Nicht Du hast den "link" auf die "Seite" eingefangen, und der produziert "hänger". Nun aber die Frage, ist dieselbe Art von "hänger" wie wir auch schon bei SWF und PDFs hatten, welche nicht wirklich hängen und Platz belegen sondern nur als solche angezeigt werden?
Sprich er hängt im Lade Puffer, dann bin ich nun von Deinem Einwand überzeugt und Deiner Meinung :-)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron