Medien werden nicht indiziert

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Medien werden nicht indiziert

Beitragvon fherb » Mi Aug 26, 2015 7:52 pm

Hallo wieder,

ganz im Gegensatz zu meinen gerade getätigten Post ist es leider bei "erwünschter" Indizierung von Medien genau andersrum: Obwohl im Suchauftrag "Indiziere Medien" mit angegeben ist, werden diese nicht automatisch indiziert. Weil mir das in meiner Datenbank aufgefallen war, habe ich auch das auf einem Testsystem folgendermaßen nachgestellt (wieder eine leere Datenbank als Ausgangsbasis):

Ich indiziere die Seite "http://www.scilogs.de/graue-substanz/und-taeglich-gruebelt-dornroeschen/". Um auch sämtliche verlinkte Bild-Objekte zu indizieren, jedoch nicht die ganze Domain in der Tiefe, habe ich folgende Konfiguration getroffen:
[*]Crawling Tiefe = 0
[*]Unlimitierte Crawl Tiefe für URLs auf die folgendes zutrifft: .*scilogs.*(png|jpg)
(Beim letzten Konfigurationswert habe ich es auch mit einem exakten regulären Regex ".*scilogs.*(png|jpg)$", versucht, was zum gleichen Ergebnis führte.)
[*]Natürlich ist wie immer aktiviert: "Indexiere Text" und "Indexiere Medien"
[*]Im Parser sind png und jpg aktiviert.

Der gesamte Auftrag wird im Prozessplaner angezeigt mit:

Code: Alles auswählen
http://null:8100/Crawler_p.html?countryMustMatchSwitch=0&reloadIfOlderNumber=0&indexText=on&deleteold=off&crawlingDepth=0&reloadIfOlderUnit=day&range=wide&agentName=YaCy Internet (cautious)&snapshotsMaxDepth=-1&cachePolicy=nocache&bookmarkTitle=Und täglich grübelt Dornröschen › Graue Substanz › SciLogs - Wissenschaftsblogs&snapshotsReplaceOld=on&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=false&indexmustnotmatch=.*\/(category|tag|impressum|datenschutz)\/.*&timezoneOffset=-120&indexMedia=on&crawlingDepthExtension=.*scilogs.*(png|jpg)&indexcontentmustnotmatch=.*\.\.\. weiter.*&recrawl=reload&crawlingMode=url&crawlingURL=http://www.scilogs.de/graue-substanz/und-taeglich-gruebelt-dornroeschen/


Leider werden die im Dokument verlinkten Bilder nicht indiziert.

Es gibt nur einen Eintrag und inhaltlich habe ich das auch durch eine direkte "Anfrage" bei solr geprüft:

Code: Alles auswählen
http://10.248.16.6:8100/solr/select?q=*:*&start=0&rows=10&core=collection1


Mit dem Ergebnis (zusammengefasst):

Code: Alles auswählen
<result name="response" numFound="1" start="0">


Nur die eigentliche HTML-Seite wurde indiziert. Die Bilder werden nun erst indiziert, wenn ich dieses Element der Datenbank zum ersten mal als Suchergebnis angezeigt bekomme (siehe mein vorheriger Post). Dann werden aber auch alle anderen Ziele indiziert, die NICHT in der ursprünglichen Suche mit dem Regexp ".*scilogs.*(png|jpg)" qualifiziert wurden.

Viele Grüße
Frank

PS: Ich arbeite nicht an einem professionellen Projekt. Sonst könnte ich mir auch das Angebot leisten, Euch, liebe YaCy-Fachleute per Vertrag anzuheuern. ;) Ich denke aber, meine Fragen sind nicht so absonderlich sondern beziehen sich auf die grundlegenden YaCy-Eigenschaften und Funktionen. Vielleicht könnt Ihr mir helfen. Vielleicht ist da auch schon länger was in der Debugging-Pipeline. Oder ich habe einfach etwas falsch verstanden. Der Inhalt meines Suchindexes wird von mir auch immer in der freeworld-Remotesuche angeboten, auch wenn, wie ich an anderer Stelle beschrieben habe, die Suche selbst per "Robinson" stattfindet.

Nachmals Viele Grüße!
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 2 Gäste