Warum indexiert der Indexer (manche Seiten) nicht?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon wsb » Mi Jun 25, 2008 2:51 pm

Habe gecrawlt über http://bieson.ub.uni-bielefeld.de/opus/ ... liste.html , Tiefe 1. Der Crawler sagt, er hätts gecrawlt - aber der Indexer findet Worte aus den Dateien nicht. Wer's ausprobieren will: http://85.10.210.99:8081

Andere URLs die ähnlich wie obige aussehen, funktionieren einwandfrei - any ideas?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon Orbiter » Mi Jun 25, 2008 3:01 pm

vielleicht findet er sie schon, aber die Seiten sind so weit hinten gerankt dass sie nicht als Treffer gezeigt werden.
Du kannst das aber ganz genau herausfinden: gucke auf der Index Admin-Seite, da kann man ja alle treffer anzeigen lassen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon wsb » Mi Jun 25, 2008 3:21 pm

Orbiter hat geschrieben:vielleicht findet er sie schon, aber die Seiten sind so weit hinten gerankt dass sie nicht als Treffer gezeigt werden.
Du kannst das aber ganz genau herausfinden: gucke auf der Index Admin-Seite, da kann man ja alle treffer anzeigen lassen.

Nein, er findet diese Wörter überhaupt nicht, Null Treffer, Und auch auf der Index Admin-Seite sagt er, dass er solche Wörter nicht findet (und dabei sind das gar keine schlechten Wörter ;-)
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon Huppi » Do Jun 26, 2008 6:31 pm

Vielleicht paßt das hier hin.

http://www.fanclubvalentinorossi.com
Die Seite gibt's aber beim Versuch, die in die Bookmarks einzutragen, erhalte ich keinen Seitentitel. Beim Versuch zu crawlen kommt:
There are 1 entries in the rejected-queue:
Initiator Executor URL Fail-Reason
MotoYaCy MotoYaCy http://www.fanclubvalentinorossi.com/ cannot load: load failed


Aus dem Quelltext der Seite:
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="it" lang="it">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
<title>Official Fan Club Valentino Rossi - moto mondiale sport campione leader </title>

<meta name="keywords" content="valentino rossi, honda, yamaha, motogp, motociclismo, automobilismo, motori, sport, juve, juventus, milan, inter, calcio, motori, auto, moto">
<meta name="description" content="valentino rossi official fan club, sport, honda, yamaha, motogp, motociclismo, automobilismo, motori, juve, juventus, milan, inter, calcio, motori, auto, moto">
<link href="vale06.css" rel="stylesheet" type="text/css">
</head>
<body bgcolor="#ffffff">


Ich habe solche Seiten, die beim Crawlstart oder beim Eintrag in die Bookmarks mucken, in den letzten Wochen häufiger gehabt. Früher eigentlich nie.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon wsb » Mo Jun 30, 2008 9:55 am

Jetzt habe ich noch so einen Fall, wo der Indexierer nicht indexiert: ich schicke den Crawler los, um einen Server zu indexieren - beobachte die Crawler-Queue und alles sieht gut aus. Hinterher suche ich nach Wörtern, die auf den Seiten stehen, der Einfachheit halber nehme ich die Startseite (http://www.schoene-holzsachen.de/): manche Wörter werden gefunden, andere nicht. Beispiel für nicht gefundene Wörter auf der Startseite: >Hochwertiges Holzspielzeug und andere<, (Keine Ergebnisse), Beispiel, was er findet: >Alle Produkte sind aus heimischem Holz< alles unter: http://85.10.210.99:8083/ (0.590/04890).

BTW: Stringsuche kann yacy offenbar nicht?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon Orbiter » Mo Jun 30, 2008 10:11 am

Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon wsb » Mo Jun 30, 2008 10:23 am

Orbiter hat geschrieben:habs gerade probiert und geht:
http://85.10.210.99:8083/yacysearch.htm ... urce=local

Das darf doch nicht wahr sein - aber hier gehts jetzt auch. Gibs zu Michael, Du hast irgendwo dran gedreht!? ;-) Oder was kann sonst die Ursache sein?? Dass der Indexer so lange gebraucht hat, kann doch kaum sein, ich hatte den heute Morgen gegen 6.30 Uhr auf die Reise geschickt. *ratlos*
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Warum indexiert der Indexer (manche Seiten) nicht?

Beitragvon wsb » Mo Jun 30, 2008 12:14 pm

wsb hat geschrieben:
Orbiter hat geschrieben:habs gerade probiert und geht:
http://85.10.210.99:8083/yacysearch.htm ... urce=local

Das darf doch nicht wahr sein - aber hier gehts jetzt auch. Gibs zu Michael, Du hast irgendwo dran gedreht!? ;-) Oder was kann sonst die Ursache sein?? Dass der Indexer so lange gebraucht hat, kann doch kaum sein, ich hatte den heute Morgen gegen 6.30 Uhr auf die Reise geschickt. *ratlos*

Es war offenbar doch die ZEIT, die das Problem kuriert hat. Hatte gerade den ähnlichen Fall mit dem Crawler, wollte schon posten "Crawler crawlt nicht" - aber ein Stunde später gings. Also: etwas mehr Geduld in Zukunft.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 1 Gast