banner / Programmsuche rausnehmen / Weitere Fragen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Tycho » Do Apr 15, 2010 4:05 pm

Hallo,

wir betreiben ein Suchportal für unsere Seite. Dazu habe ich ein paar Fragen / Schwierigkeiten:

1. Ich habe die Programmsuche aus dem html quelltext herausgenommen. Sind dadurch eventuell Schwierigkeiten zu befürchten?

2. Ich finde in den Textsuchergebnissen teilweise Bilder. Diese haben ja relativ wenig mit Text zu tun. Was kann man dagegen unternehmen? Oder wie kann man diese wegfiltern?

3. Wie filtere ich am besten einzelne domains heraus?
mit:
Code: Alles auswählen
domain.de/*

oder
Code: Alles auswählen
domain.de


Desweiteren möchte ich gerne alles herausnehmen was unter:
Code: Alles auswählen
http://www.beispiel.de/test/blabla/

liegt.
Als filter habe ich:
Code: Alles auswählen
beispiel.de/test/blabla/*

angegeben, was aber nicht greift :(

4. der banner funktioniert nicht mehr.

in den Logs finde ich folgendes:
E 2010/04/15 16:54:22 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /usr/share/yacy/htroot/Banner.class: java.lang.ArrayIndexOutOfBoundsException: Coordinate out of bounds!:Coordinate out of bounds!; java.awt.graphicsenv='sun.awt.X11GraphicsEnvironment'

W 2010/04/15 16:54:22 StackTrace null
java.lang.reflect.InvocationTargetException
at sun.reflect.GeneratedMethodAccessor80.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at de.anomic.http.server.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1197)
at de.anomic.http.server.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:518)
at de.anomic.http.server.HTTPDFileHandler.doGet(HTTPDFileHandler.java:235)
at de.anomic.http.server.HTTPDemon.GET(HTTPDemon.java:454)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at de.anomic.server.serverCore$Session.listen(serverCore.java:732)
at de.anomic.server.serverCore$Session.run(serverCore.java:626)
Caused by: java.lang.ArrayIndexOutOfBoundsException: Coordinate out of bounds!
at sun.awt.image.IntegerInterleavedRaster.getDataElements(IntegerInterleavedRaster.java:219)
at java.awt.image.BufferedImage.getRGB(BufferedImage.java:888)
at net.yacy.visualization.RasterPlotter.insertBitmap(RasterPlotter.java:444)
at net.yacy.visualization.RasterPlotter.insertBitmap(RasterPlotter.java:367)
at de.anomic.yacy.graphics.NetworkGraph.drawBannerPicture(NetworkGraph.java:386)
at de.anomic.yacy.graphics.NetworkGraph.getBannerPicture(NetworkGraph.java:349)
at Banner.respond(Banner.java:112)
... 12 more

W 2010/04/15 16:54:22 StackTrace Coordinate out of bounds!
java.lang.ArrayIndexOutOfBoundsException: Coordinate out of bounds!
at sun.awt.image.IntegerInterleavedRaster.getDataElements(IntegerInterleavedRaster.java:219)
at java.awt.image.BufferedImage.getRGB(BufferedImage.java:888)
at net.yacy.visualization.RasterPlotter.insertBitmap(RasterPlotter.java:444)
at net.yacy.visualization.RasterPlotter.insertBitmap(RasterPlotter.java:367)
at de.anomic.yacy.graphics.NetworkGraph.drawBannerPicture(NetworkGraph.java:386)
at de.anomic.yacy.graphics.NetworkGraph.getBannerPicture(NetworkGraph.java:349)
at Banner.respond(Banner.java:112)
at sun.reflect.GeneratedMethodAccessor80.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at de.anomic.http.server.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1197)
at de.anomic.http.server.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:518)
at de.anomic.http.server.HTTPDFileHandler.doGet(HTTPDFileHandler.java:235)
at de.anomic.http.server.HTTPDemon.GET(HTTPDemon.java:454)
at sun.reflect.GeneratedMethodAccessor16.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at de.anomic.server.serverCore$Session.listen(serverCore.java:732)
at de.anomic.server.serverCore$Session.run(serverCore.java:626)


Ich freue mich auf eure Antworten! :)
Tycho
 
Beiträge: 4
Registriert: Do Apr 15, 2010 3:55 pm

Re: banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Quix0r » Do Apr 15, 2010 8:12 pm

Zu 1.)
Das Filtern geht mit einem Punkt vor dem Sternchen.
Code: Alles auswählen
some-domain.com/.*

Filtert die gesamte Domain some-domain.com raus. Gleiches gilt auch bei some-other-domain.de/foo/bar/.*.

Dass kein www angegeben ist, hat den Vorteil, dass auch Seiten ohne www rausfliegen (Cleaner verwenden!).

Wenn z.B. Dateien wie xmplrpc.php aus dem gesamten Index geloescht werden sollen, was Sinn macht, bitte diesen Code verwenden:
Code: Alles auswählen
.*.*/xmlrpc.php

Das sollte wohl gehen.

Zu 2.)
Das sollte mit den unten genannten Segmenten besser werden, vermutlich sind diese durch Proxy-Nutzung (wurde der verwendet?) reingekommen, da an der Codestelle nicht sauber "abgebogen" (unterschieden) wird, ob das Bild in die Text- oder Bildsuche soll. Oder ist das Bild ein dynamisches? Dies wird gerade hier diskutiert.

Zu 3.)
Zum zweiten Teil (Logfile) kann ich leider nichts sagen, keine Ahnung was da kaputt ist.

Das mit der Programmsuche sollte besser konfigurierbar sein, damit Updates wieder leichter gehen. Ich schaetze mal, dass dies erst mit den Segmenten (@Orbiter: Mandaten?) gehen wird, also noch etwas Geduld. :) Ich wuerde ein Formular sehr begruessen, wo man die einzelnen Sucharten (Textsuche, Bildersuche usw.) einzelnt ein-/ausschalten kann, bin selber aber noch nicht tief genug im Code drinne. :(
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Tycho » Fr Apr 16, 2010 1:10 pm

Quix0r hat geschrieben:Zu 1.)
Das Filtern geht mit einem Punkt vor dem Sternchen.
Code: Alles auswählen
some-domain.com/.*

Filtert die gesamte Domain some-domain.com raus. Gleiches gilt auch bei some-other-domain.de/foo/bar/.*.


Super danke. Was passiert, wenn man nur mit * filtert?

Dass kein www angegeben ist, hat den Vorteil, dass auch Seiten ohne www rausfliegen (Cleaner verwenden!).


ja, und soweit ich das sehe werden dadurch auch subdomains mitgefiltert
forum.domain.de


Wenn z.B. Dateien wie xmplrpc.php aus dem gesamten Index geloescht werden sollen, was Sinn macht, bitte diesen Code verwenden:
Code: Alles auswählen
.*.*/xmlrpc.php

Das sollte wohl gehen.


Ich habe das mal eingetragen.

Wie filtere ich alles was mit .gif, .jpg, .png in der url ist heraus?

Code: Alles auswählen
.*.*/*.gif


tut leider nicht


Zu 2.)
Das sollte mit den unten genannten Segmenten besser werden, vermutlich sind diese durch Proxy-Nutzung (wurde der verwendet?) reingekommen, da an der Codestelle nicht sauber "abgebogen" (unterschieden) wird, ob das Bild in die Text- oder Bildsuche soll. Oder ist das Bild ein dynamisches? Dies wird gerade hier diskutiert.


Ich verwende keinen Proxy, lediglich den normalen Crawler.
Soweit ich das sehe handelt es sich nicht um dynamische Bilder.


Zu 3.)
Zum zweiten Teil (Logfile) kann ich leider nichts sagen, keine Ahnung was da kaputt ist.

Das mit der Programmsuche sollte besser konfigurierbar sein, damit Updates wieder leichter gehen. Ich schaetze mal, dass dies erst mit den Segmenten (@Orbiter: Mandaten?) gehen wird, also noch etwas Geduld. :) Ich wuerde ein Formular sehr begruessen, wo man die einzelnen Sucharten (Textsuche, Bildersuche usw.) einzelnt ein-/ausschalten kann, bin selber aber noch nicht tief genug im Code drinne. :(

Alles klar! Trotzdem Danke, vielleicht kommt dazu ja noch eine Antwort :)
Tycho
 
Beiträge: 4
Registriert: Do Apr 15, 2010 3:55 pm

Re: banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Quix0r » Fr Apr 16, 2010 2:03 pm

Tycho hat geschrieben:Super danke. Was passiert, wenn man nur mit * filtert?

Dann klappt es nicht. :)

Tycho hat geschrieben:ja, und soweit ich das sehe werden dadurch auch subdomains mitgefiltert
forum.domain.de

Hier fehlt auch das /.* am Ende.

Tycho hat geschrieben:Wie filtere ich alles was mit .gif, .jpg, .png in der url ist heraus?

Code: Alles auswählen
.*.*/*.gif


tut leider nicht

Vielleicht .*.*/.*.gif ?

Tycho hat geschrieben:Ich verwende keinen Proxy, lediglich den normalen Crawler.
Soweit ich das sehe handelt es sich nicht um dynamische Bilder.

Okay, dann kann ich auch nicht weiterhelfen.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Tycho » Fr Apr 16, 2010 2:12 pm

Quix0r hat geschrieben:
Tycho hat geschrieben:Super danke. Was passiert, wenn man nur mit * filtert?

Dann klappt es nicht. :)


Alles klar :)

...
Vielleicht .*.*/.*.gif ?


Scheint zu gehen. 5000 urls sind jetzt weg und in den ergebnissen finde ich auch keine Bilder mehr. *Freu*

Tycho hat geschrieben:Ich verwende keinen Proxy, lediglich den normalen Crawler.
Soweit ich das sehe handelt es sich nicht um dynamische Bilder.

Okay, dann kann ich auch nicht weiterhelfen.


alles klar.

Das Problem mit dem Banner hat sich übrigens nach dem update über apt gelöst.
Tycho
 
Beiträge: 4
Registriert: Do Apr 15, 2010 3:55 pm

Re: banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Orbiter » Fr Apr 16, 2010 3:06 pm

Bildersuche: wir sind hier quasi mitten in einem Experiment, weil ich die Bilder einfach mal analog zu pdf, doc etc einfach als Dokument aufgefasst habe. Wenn man die nicht mit dem Parser beim Crawlen erfassen will, kann man in
/ConfigParser.html
den entsprechenden Parser für gif, png, jpg etc ausschalten.
Wenn ich Zeit finde werde ich die Darstellung nochmal anpassen und die Bilder nicht im Suchergebnis sonden als Bilder oben drüber anzeigen. Wird aber wieder nur ein weiteres Experiment.


Erklärung zu den Pattern und '*': das * ist nur ein Wiederholungszeichen, man muss angeben was da wiederholt wird. Man meint meistens 'egal', das wird dann als .* ausgedrückt. Details dazu hier: http://java.sun.com/j2se/1.5.0/docs/api ... n.html#sum


Application-Suche: kann man konfigurieren, und zwar steht es in defaults/yacy.init:
Code: Alles auswählen
# search domains. If set to false then that search is not available
search.text = true
search.images = true
search.audio = true
search.video = true
search.app = true

Wenn du da Werte auf false setzt, wird die zugehörige Suche nicht mehr angeboten.
Dazu gibts noch keine Admin-Seite zum einstellen, du müsstest die Werte in DATA/SETTINGS/yacy.conf manuell setzen. Dann brauchst du aber YaCy nicht zu patchen und du kannst immer einfach den Auto-Updater nutzen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: banner / Programmsuche rausnehmen / Weitere Fragen

Beitragvon Tycho » Fr Apr 16, 2010 5:36 pm

Orbiter hat geschrieben:Bildersuche: wir sind hier quasi mitten in einem Experiment, weil ich die Bilder einfach mal analog zu pdf, doc etc einfach als Dokument aufgefasst habe. Wenn man die nicht mit dem Parser beim Crawlen erfassen will, kann man in
/ConfigParser.html
den entsprechenden Parser für gif, png, jpg etc ausschalten.
Wenn ich Zeit finde werde ich die Darstellung nochmal anpassen und die Bilder nicht im Suchergebnis sonden als Bilder oben drüber anzeigen. Wird aber wieder nur ein weiteres Experiment.


Ah verstehe. Wenn ich den Parser an der Stelle ausschalte, funktioniert die Bildersuche noch?
Mein Problem ist ja lediglich, dass in der Textsuche Bilder enthalten sind :)


Erklärung zu den Pattern und '*': das * ist nur ein Wiederholungszeichen, man muss angeben was da wiederholt wird. Man meint meistens 'egal', das wird dann als .* ausgedrückt. Details dazu hier: http://java.sun.com/j2se/1.5.0/docs/api ... n.html#sum


Ah klasse!

Application-Suche: kann man konfigurieren, und zwar steht es in defaults/yacy.init:
Code: Alles auswählen
# search domains. If set to false then that search is not available
search.text = true
search.images = true
search.audio = true
search.video = true
search.app = true

Wenn du da Werte auf false setzt, wird die zugehörige Suche nicht mehr angeboten.
Dazu gibts noch keine Admin-Seite zum einstellen, du müsstest die Werte in DATA/SETTINGS/yacy.conf manuell setzen. Dann brauchst du aber YaCy nicht zu patchen und du kannst immer einfach den Auto-Updater nutzen.


Ah verstehe. Hab das gleich mal gesetzt :)
Tycho
 
Beiträge: 4
Registriert: Do Apr 15, 2010 3:55 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast