Blacklistfehlfunktion?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Blacklistfehlfunktion?

Beitragvon datengrab » So Mai 11, 2008 9:46 am

Ich habe meine Blacklist so eingesetellt, das sie nur für den Crawler gültig ist. Unter ConfigNetwork_p.html habe ich bei "Peer-to-Peer Modus" Index-Empfang auf "akzeptiere übertragene URLs, die zu Ihrer Blacklist passen." gestellt. Trotzdem tauchte das im Log auf:
I 2008/05/11 10:40:50 PLASMA Received 176 URLs from peer yINQXuGxGbtp:badheizer/0.5800472 in 207 ms, Blocked 1 URLs

Das dürfte doch eigentlich nicht sein, oder?
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Blacklistfehlfunktion?

Beitragvon Vega » Mo Mai 12, 2008 5:32 pm

Gleich noch sowas, ich habe auf meinem Peer 3 Blacklists, die erste Liste wird komplett geblockt, die zweite Liste komplett bist auf "proxy" die dritte ist noch leer. In der Zweiten Liste ist unter anderem die Domain gewinnscout.de/.* mit gelistet - ich kann die Domain auch (mit eingeschaltetem Yacy-Proxy) "ansurfen", aber, im Log steht dann folgendes:

Code: Alles auswählen
I 2008/05/12 18:23:26 PLASMA Excluded 0 words in URL http://www.gewinnscout.de/rechts.html
I 2008/05/12 18:23:26 PLASMA Excluded 0 words in URL http://www.gewinnscout.de/unten.html
I 2008/05/12 18:23:26 PLASMA *Indexed 74 words in URL http://www.gewinnscout.de/rechts.html [ASJKSQk65aXB]
        Description:  Gewinnscout.de - Die besten Gewinnspiele, Schnaeppchen und Kostenlosangebote im Netz!
        MimeType: text/html | Charset: ISO-8859-1 | Size: 355 bytes | Anchors: 19
        LinkStorageTime: 7 ms | indexStorageTime: 15 ms
I 2008/05/12 18:23:26 PLASMA *Indexed 61 words in URL http://www.gewinnscout.de/unten.html [YB4-mQk65aXB]
        Description:  Gewinnscout.de - Die besten Gewinnspiele, Schnaeppchen und Kostenlosangebote im Netz!
        MimeType: text/html | Charset: ISO-8859-1 | Size: 231 bytes | Anchors: 11
        LinkStorageTime: 10 ms | indexStorageTime: 20 ms
E 2008/05/12 18:23:26 YACY yacyClient.queryUrlCount error asking peer 'jan-pcera':java.net.SocketTimeoutException: Read timed out
I 2008/05/12 18:23:26 YACY hello: responded remote junior peer 'jan-pcera' from 88.25.3.218
I 2008/05/12 18:23:28 MEMORY performed necessary GC, freed 286344 KB (requested/available/average: 2048 / 286344 / 0 KB)
I 2008/05/12 18:23:28 MEMORY performed necessary GC, freed 286344 KB (requested/available/average: 4096 / 286344 / 0 KB)
I 2008/05/12 18:23:29 PLASMA Excluded 0 words in URL http://www.gewinnscout.de/
I 2008/05/12 18:23:30 PLASMA *Indexed 14836 words in URL http://www.gewinnscout.de/ [5er1WQk65aXB]
        Description:  Gewinnscout.de - Die besten Gewinnspiele, Schnaeppchen und Kostenlosangebote im Netz!
        MimeType: text/html | Charset: ISO-8859-1 | Size: 438308 bytes | Anchors: 4109
        LinkStorageTime: 1 ms | indexStorageTime: 1133 ms


Offensichtlich wird die Domain dann trotzdem in den Index aufgenommen, und genau das wollte ich ja nicht - ist das ein Bug oder verstehe ich die Funktion falsch ????? Ach ja - SVN 4795

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon Vega » So Mai 18, 2008 9:02 am

SVN - 0.582/04804 Blacklists funktionieren meiner Meinung nach immer noch nicht richtig, siehe Screenshots:
Suchergebniss.jpg
Suchergebniss.jpg (102.92 KiB) 1459-mal betrachtet

Test.jpg
Test.jpg (21.47 KiB) 1458-mal betrachtet

Blacklist.jpg
Blacklist.jpg (53.59 KiB) 1457-mal betrachtet


Trotz korrekten Test wird mir ein Suchergebniss angezeigt, im Umkehrschluss heißt das ja das man sich momentan nicht die Arbeit machen braucht Blacklists zu pflegen, oder ? (Ist nicht böse gemeint, ich möchte nur darauf Hinweisen !)

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon DanielR » Mo Mai 19, 2008 4:03 pm

ich kenn mich da nicht aus, aber glaube es muss
.*domain.tld/.* heißen (oder nur . am Anfang)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Blacklistfehlfunktion?

Beitragvon daburna » Di Mai 20, 2008 8:02 am

Du willst www gewinnscout.de raus haben. Dann musst du zusätzlich *.gewinnscout.de/.* in die blacklist eingeben. Leider ein bisschen umständlich.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Blacklistfehlfunktion?

Beitragvon lulabad » Di Mai 20, 2008 9:00 am

Was mich irritiert ist, dass er ja mit www. getestet hat (2. Bild) und diese URL wird geblockt. Also sollte sie eigentlich nicht vorkommen.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Blacklistfehlfunktion?

Beitragvon daburna » Di Mai 20, 2008 9:39 am

Hmmm...ka. Ich hab das schon immer so gemacht, weil es anders (also nur domain.endung/.*) nie funktioniert hat.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Blacklistfehlfunktion?

Beitragvon datengrab » Di Mai 20, 2008 4:02 pm

DanielR hat geschrieben:ich kenn mich da nicht aus, aber glaube es muss
.*domain.tld/.* heißen (oder nur . am Anfang)

Nur . am Anfang dürfte eigentlich gar nicht funktionieren, da ein Punkt nur ein einzelnes Zeichen matcht.

Ich verwende derweil nur noch regex in der Form von
Code: Alles auswählen
.*\.domain\..*/.*

weil ich damit die Subdomains und die Domain mit allen TLDs auf einmal sperren kann. Wer jetzt natürlich eine Subdomain hat, die einer von mir gesperrten Domain entspricht, hat pech gehabt und wird von mit nicht indexiert.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm

Re: Blacklistfehlfunktion?

Beitragvon Vega » Di Mai 20, 2008 8:42 pm

Du willst www gewinnscout.de raus haben. Dann musst du zusätzlich *.gewinnscout.de/.* in die blacklist eingeben. Leider ein bisschen umständlich.


Nein, das ist es nicht, wenn ich mit dem Eintrag so wie er ist, noch zusätzlich "proxy" aktiviere - (siehe 3tes Bild) dann wird die Seite
auch beim Browsen mit aktiviertem Proxy geblockt - ich habe auch mit der Testfunktion der Blacklist-Seite mal probiert, und es wird mir angezeigt das http://www.gewinnscout.de als auch http://gewinnscout.de geblockt wird. Im Proxy wird die Seite also geblockt (wenn ich das möchte) aber in den Index kommt Sie und wird auch beim suchen angezeigt - da funktioniert einfach etwas nicht... :(

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon Vega » Sa Jul 05, 2008 6:54 am

Ich Pushe das mal, das ganze ist in SVN: 0.592/04965 immer noch unverändert - also unbrauchbar !
Könnte sich das mal jemand ansehen, ich finde diese Funktion ziemlich wichtig - auch weil ich eben nicht die
Wikipedia-Ergebnisse in 127 Sprachen benötige...also im Endeffekt Suchergebnisse angezeigt werde die
recht wenige Leute wirklich benötigen.

@Daburna - wenn ich in die Blacklist *.gewinnscout.de/.* hineinschreibe - wird gar nichts mehr geblockt,
zumindest sagt das die TestFunktion auf der Blacklist-Seite, und im Suchergebnis taucht "Gewinnscout.de"
auch auf. Also lag ich mit meiner Syntax richtig, aber die Funktion ist einfach etwas defekt. Ich hatte
das ja weiter oben schon beschrieben/getestet.

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon lulabad » Sa Jul 05, 2008 8:30 am

So wie ich das sehe wird die Blacklist nur für die remote Suchen angezogen, nicht aber für die locale Suche. Zumindest habe ich im code nichts gefunden. Kann mich aber auch irren.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Blacklistfehlfunktion?

Beitragvon Vega » Sa Jul 05, 2008 8:52 am

@lulabad - hm, das wäre nicht sinnvoll, oder ? - vielleicht kann uns Obiter oder jemand anderes der diese Funktion implementiert hat "erleuchten" :idea:

Also Sinnvoll wäre das (meiner Meinung nach) schon, eventuell sogar konfigurierbar, das heist "Häkchen" setzen ob die Blacklist für die lokale oder/und Remote Suche genutzt werden soll. Das hätte noch den Vorteil das ich in der lokalen Suchliste nur Ergebnisse bekomme die ich selbst auch haben will, aber die Remote-Suche alles bringt, also den gesamten Index nutzt. - Ist ja sinnvoll wenn Yacy Weltweit genutzt wird 8-) .
Eine andere Idee ist das man z.B. über die Blacklist im Suchinterface eine Funktion anbieten könnte wie z.B. Suche nur in .de Domänen etc.....

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon Vega » So Jul 20, 2008 7:50 am

Gibt es schon neue Erkenntnisse ?
Ich würde mir gern die Arbeit machen und ein wenig an meinen Black-Lists "feilen"......

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon Vega » Mi Nov 19, 2008 10:33 am

Update - Version 0.614/05349 verhält sich immer noch so, dh. ich kann in die Blacklist eintragen was ich will, ich bekomme bei der Suche immer noch Ergebnisse die ich gar nicht haben will - kann sich das nochmal jemand ansehen ????

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Blacklistfehlfunktion?

Beitragvon Low012 » Mi Nov 19, 2008 10:43 am

Ich habe im Moment leider sehr wenig Zeit. Ich habe mir daher eben mal selbst eine E-Mail mit einem Link auf diesen Thread geschickt, damit ich mir die Sache demnächst, wenn ich mal etwas Zeit habe, ansehe.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Blacklistfehlfunktion?

Beitragvon Vega » Mi Nov 19, 2008 11:10 am

@Low012 lass Dir Zeit - siehe http://forum.yacy-websuche.de/viewtopic.php?f=12&t=174 :oops:

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 6 Gäste

cron