Kleine Bilder (z.B. Buttons) aus der Datenbank entfernen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Kleine Bilder (z.B. Buttons) aus der Datenbank entfernen

Beitragvon fherb » Mi Aug 26, 2015 8:49 pm

Hallo zum dritten Mal in Folge.

Nicht umsonst muss ich nun noch einen dritten Post starten. Er hängt mit den beiden vorherigen Posts zur Medienindizierung zusammen. Jeder Post für sich ist aber eine eigene Problemstellung, wie ich meine, weswegen ich das hier zur Kommentierung und Lösung gerade getrennt "einspeise".

Durch die Indizierung der Medien sollte YaCy in der Lage sein, auch explizit Bilder zu einem Thema (Stichwort) zu liefern. Dass das bei YaCy nicht so optimal läuft, wie vielleicht bei Google, möchte ich ganz entschieden NICHT beanstanden. Ich weiß, was für künstliche Intelligenz notwendig wäre, um auch Bilder wirklich effektiv auf Suchtreffer zu liefern! Das ist bei weitem komplizierter als Text zu klassifizieren und zu werten bzw. zu "boosten". Ich denke, es war bisher nie eine gestellte Aufgabe, die Bildsuche bei YaCy zu optimieren. Zumal lokale Anwender (Intranet) zuallererst Texte und textbasierende Informationen benötigen. Bilder sind dann die hohe Schule, die man mit dem entsprechenden Textergebnis dann oft noch per Hand findet. Egal: Ich möchte meine Datenbank bezüglich Medien zumindest "rein halten". Sprich: Mini-Bilder, wie Unmassen von Social-Link-Buttons, Website-eigene Grafik-Links, Thumbnails usw. würde ich gern für die "Image"-Anzeige auf eine Suchanfrage aussortieren, Zu deutsch: Wegschmeißen.

Ziel: Wenn man bei der Solr-Suche speziell Medien (in meinem Fall Images und ausnahmsweise Videos und Audios) sucht, sollen zumindest alle winzigen Bildschnipsel, Ad-1-Pixel-Bilder, Social-Buttons und Site-eigene Buttons NICHT angezeigt werden. Dazu gibt es zwei Wege:

[*] Bereits bei der Indizierung wird "kleiner" Medieninhalt nicht erfasst. Bzw. wird regelmäßig alles entfernt, was klein ist. Es gibt dazu einen passenden Eintrag im Schema und auch eine Selektion für die Löschung:
Mit
Code: Alles auswählen
images_pixel_val:[0 TO 70000]
könnte man (gerundet) gut addressieren, dass alles unter etwa 256x256 Pixel entfernt wird.

[*] Bei der Suche wird alles ausgeschlossen, was die eben beschriebenen
Code: Alles auswählen
images_pixel_val:[0 TO 70000]
einschließt.

Das Problem: Die Medien werden nicht indiziert, sondern statt dessen wird nur der Link mit der sinnvoll zu verwendenden Angabe images_pixel_val (wenn man sich den Wert einschaltet) zusammen mit dem Text(HTML)-Dokument archiviert! Löscht man nun alle vermeintlichen Bilder, also indizierte Inhalte mit
Code: Alles auswählen
images_pixel_val:[0 TO 70000]
, dann löscht man nicht die Bilder, sondern die Textdokumente. Denn die Bilder sind nicht indiziert (s. anderer Thread) und ich habe keine Ahnung, wie man aus einem indizierten Text(HTML)-Dokument die Links zu Bildern löschen kann, die
Code: Alles auswählen
images_pixel_val:[0 TO 70000]
entsprechen.


Wie kann man das lösen?

Viele Grüße
Frank
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: Kleine Bilder (z.B. Buttons) aus der Datenbank entfernen

Beitragvon Orbiter » Fr Sep 18, 2015 11:13 am

Du kannst mit den Mitteln die du beschreibst ja schon die Bilder identifizieren die du löschen willst, also mit einem entsprechenden Solr-Query. Dann ist es auch einfach die aus YaCy zu löschen, indem du in /IndexDeletion_p.html im Feld "Delete by Solr Query" den Query-Term eingibst.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Kleine Bilder (z.B. Buttons) aus der Datenbank entfernen

Beitragvon fherb » Sa Sep 19, 2015 4:27 pm

Danke für die Antwort!

Ich werd' mir jetzt wohl doch mal das dicke Solr-Buch anschaffen. Ganz ohne Datenbankzugriffe kommt man nicht aus, wenn man eigene Ansprüche umsetzen will. :) Einen beschränkten Workaround hab ich mir mit Privoxy gemacht: Bevor der Crawler und Indexer die Seiten bekommt, entferne ich einfach mal alle Links auf GIFs und PNGs. Was vorher schon weg ist, braucht man später nicht wieder zu entfernen. :)
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast

cron