Yacy indiziert, auch wenn nicht erlaubt

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Yacy indiziert, auch wenn nicht erlaubt

Beitragvon fherb » Mi Aug 26, 2015 7:25 pm

Hallo,

Habe gerade festgestellt, dass Bilder indiziert werden, wenn eine Suchanfrage stattfindet:

Zum Test wurde die Seite "http://www.scilogs.de/graue-substanz/und-taeglich-gruebelt-dornroeschen/" (in der Tiefe 0) mit folgendem Befehl als einzige Seite ercrawlt (Anzeige des Prozessplaners nach Ausführung des Befehls):

Code: Alles auswählen
http://null:8100/Crawler_p.html?countryMustMatchSwitch=0&reloadIfOlderNumber=0&indexText=on&deleteold=off&crawlingDepth=0&mustmatch=.*scilogs.de.*&reloadIfOlderUnit=day&range=wide&agentName=YaCy Internet (cautious)&snapshotsMaxDepth=-1&cachePolicy=nocache&bookmarkTitle=Und täglich grübelt Dornröschen › Graue Substanz › SciLogs - Wissenschaftsblogs&snapshotsReplaceOld=on&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=false&timezoneOffset=-120&indexMedia=on&recrawl=reload&crawlingMode=url&crawlingURL=http://www.scilogs.de/graue-substanz/und-taeglich-gruebelt-dornroeschen/


Als Ergebnis wird genau diese Seite ercrawlt: Das Crawling terminiert mit Anzahl Dokumente = 1. Soweit prima.

Auf ConfigPortal.html ist nun explizit deaktiviert: "Lade Dokumente die in Suchergebnissen verlinkt sind. ..." Ebenso ist "add remote search results to the local index" deaktiviert. Auch läuft kein Crawl mehr und die Tiefe des vorhin gestarteten Crawlings war mit "0" eindeutig festgelegt.

Führe ich einen Suchauftrag nach "täglich" auf, wird mir die ercrawlte Seite angezeit. Auch prima. Ein Blick in den Solr-Datensatz zeit mir, dass die Links zu Bildern auf der Seite mit abgespeichert wurden. Auch ok. Die Bilder selbst sind jedoch nicht in der Datenbank.

Klicke ich im Suchergebnis jetzt auch "Images", um mir eventuelle Images zum Begriff "täglich" anzeigen zu lassen, werden einige Images angezeigt bzw. nur deren Links. Das sind vermutlich genau die, die im Datensatzes des html-Dokumentes standen.

Problem jedoch: Obwohl nicht gecrawlt werden soll, hat Yacy mit dem Klick auf "Images" 7 weitere Dokumente indiziert.

Wieso das? Jetzt wird meine Datenbank mit solch sinnvollen Bildern wie "social/twitter.png", "social/google.png" usw gefüllt. Auch wird ein Eintrag für "http://ad.de.doubleclick.net/ad/w-o/sdw_rot;tile=1;kw=iqadtile1,sdw;doc=artikel;sz=728x90;ord=123456789?" angelegt.

Ich denke das ist nicht im Sinne des Erfinders. Insbesondere zur Reinhaltung des Indexes, wenn man sich beim Crawling schon so viel Mühe gibt, mittels regex-Ausdrücken nur solche Seiten zu indizieren, die wirklich relevant sind.

Ich habe auch mal versucht *facebook* und *twitter* in die Balcklist aufzunehmen. Dies wirkt sich aber nicht aus. Offenbar werden wirklich nur Domains und keine regexp-Ausdrücke in URLs geblacked.

Kann man das Verhalten irgendwo deaktivieren?

Viele Grüße
Frank
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: Yacy indiziert, auch wenn nicht erlaubt

Beitragvon Orbiter » Fr Aug 28, 2015 4:26 pm

Hi Frank,

die Bildersuche wird oft missverstanden. In der Bildersuchergebisanzeige landen Bilder aus zwei quellen:
-individuell geladene image-urls
-links die in html eingebettet sind.

wurden die Bilder aus zweiter Variante bei einer Bildersuche angezeigt, so wurden sie zur Snippetgenerierung auch geladen und dann ist es ökonomisch und korrekt sie als individuelle Indexeinträge ebenfalls zu speichern. Das hat dann nichts mehr mit deinen Crawleinstellungen zu tun. Ich verstehe dass dies aus User-Sicht nicht gleich offensichtlich ist, aber effizient ist es auf jeden Fall. Wenn du das nicht willst, dann willst du sicherlich auch nicht dass YaCy die Bilder läd, dann kannst du die Bildersuche abstellen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy indiziert, auch wenn nicht erlaubt

Beitragvon fherb » Mo Aug 31, 2015 4:39 pm

Danke!

Dann habe ich das wirklich missverstanden. Aber so langsam steige ich dahinter. Zumal ich die letzten Tage einfach mal etwas experimentiert habe, laufen nun die Fakten zusammen und ich verstehe, was passiert. Und was nicht.

Für alle, die mit Ähnlichem zu tun haben:
Habe inzwischen mal versucht, einen Workarround zu schaffen, um in Dokumenten verlinkte Bilder, die "wahrscheinlich" nur Icons, Thumbnails usw. sind, nicht mit den Dokumenten zu indizieren: In einem vorgeschalteten Privoxy lösche ich alle Bildlinks, deren Breite oder Höhe mit unter 200 Pixeln angegeben wird. Da die Bilder ja selbst nicht geladen werden, wirkt das leider nur, wenn die Größen im html drin stehen. Außerdem schmeiße ich alle Bilder-Links mit .*facebook.* .*twitter.* usw raus. Das hat schon gut geholfen. Und bei der Aktion werden dann auch gleich noch die ganzen normalen Links in Social Medien "vom Punkt gefressen". :D

Viele Grüße!
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast