Crawler-Bug?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawler-Bug?

Beitragvon wsb » Mo Jun 30, 2008 2:00 pm

... oder mein Fehler (wahrscheinlich!)? Also: ich wollte die Site http://www.holzkram.com/ crawlen, yacy legt auch los, zeigt diese eine Seite in der Crawler-Queue an ... und das wars. Wenn ich mir den HTML-Quellcode der Seite anschaue, dann gibt es dort in der Tat nur einen einzigen Link zum weiterverfolgen:
Code: Alles auswählen
<div id="Layer2" style="position:absolute; left:32%; top:30%; width:433px; height:431px; z-index:2"><a href="menue.htm"><img src="Bilder/zwergenhausfenster.gif" alt="Waldorf Spielst&auml;nder, Kinderk&uuml;che, Ritterburg, Kinderm&ouml;bel u.v.m." width="401" height="420" border="0"></a></div>
<div id="Layer3" style="position:absolute; left:70%; top:80%; width:312px; height:39px; z-index:3">
  <h1><font size="5" face="Tempus Sans ITC"><a href="menue.htm">Holzkram Holzspielzeug
    </a></font></h1>

den Link auf "menue.htm". Aber wieso folgt der yacy-Crawler dem nicht??

Ich habs mit 2 verschiedenen yacy-Instanzen probiert, einmal 0.591/04954 und 0.590/04890. Beide tun es nicht.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler-Bug?

Beitragvon wsb » Mo Jun 30, 2008 2:10 pm

wsb hat geschrieben:... oder mein Fehler (wahrscheinlich!)? Also: ich wollte die Site http://www.holzkram.com/ crawlen, yacy legt auch los, zeigt diese eine Seite in der Crawler-Queue an ... und das wars. Wenn ich mir den HTML-Quellcode der Seite anschaue, dann gibt es dort in der Tat nur einen einzigen Link zum weiterverfolgen:
Code: Alles auswählen
<div id="Layer2" style="position:absolute; left:32%; top:30%; width:433px; height:431px; z-index:2"><a href="menue.htm"><img src="Bilder/zwergenhausfenster.gif" alt="Waldorf Spielst&auml;nder, Kinderk&uuml;che, Ritterburg, Kinderm&ouml;bel u.v.m." width="401" height="420" border="0"></a></div>
<div id="Layer3" style="position:absolute; left:70%; top:80%; width:312px; height:39px; z-index:3">
  <h1><font size="5" face="Tempus Sans ITC"><a href="menue.htm">Holzkram Holzspielzeug
    </a></font></h1>

den Link auf "menue.htm". Aber wieso folgt der yacy-Crawler dem nicht??

Ich habs mit 2 verschiedenen yacy-Instanzen probiert, einmal 0.591/04954 und 0.590/04890. Beide tun es nicht.


Es ist ziemlich verhext. Kaum dass dieses Posting raus war, wird ein Teil der Seiten gefunden. Was nicht gefunden wird, ist das wenn auch seltsame Wort "Paravent"; es steht auf der Seite http://www.holzkram.com/moebel.htm , auch die "Index Administration" sagt, dass sie dieses Wort nicht kennt - was wird hier gespielt??
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawler-Bug?

Beitragvon Low012 » Mo Jun 30, 2008 2:50 pm

Ich glaube, mit der Seite http://www.holzkram.com/moebel.htm ist YaCy ein bisschen überfordert. Ich habe mal kurz in den Quellcode der Seite geschaut und sowas habe ich noch nie gesehen. Über einer Grafik, die die einzelnen Möbel enthält, befinden sich mehrere Layer mit Text, die pixelgenau über der Grafik eingeblendet werden. Ich vermute, dass YaCy, weil der Text zwischen <div>-Tags steht und nicht zwischen "den üblichen Verdächtigen" wie <p>, <a> oder Tabellen-Tags, nichts mit den Daten anfangen kann und sie daher ignoriert.

Ich finde die Seite schon ein bisschen krank und auch Google findet unter den Suchbegriffen "paravent" und "holzkram.com" nicht die o.g. Seite. Die Seite holzkram.com ist allerdings in Googles Index vorhanden.

Da ich heute fies bin :twisted:, behaupte ich einfach mal, dass die Seite ein gutes Beispiel dafür ist, wie die Unwissenheit des Designers eine gute Suchmaschinenplatzierung verhindert hat. Hätte ich heute bessere Laune, würde ich auf die Unzulänglichkeiten aktueller Suchmaschinenlösungen hinweisen und darauf, dass nicht der Mensch sich (und seine Arbeit) an Maschinen anpassen soll, sondern die Maschinen schlauer werden müssen. ;)

edit: Yahoo.de findet die Seite mit den beiden o.g. Suchbegriffen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste