BlackList & SubFolder in url

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

BlackList & SubFolder in url

Beitragvon Guims » Mo Sep 16, 2013 6:58 pm

Hello,

I crawl many sites that use tags
for example the same page:
http://mywebsite/white_house.html
--->
http://mywebsite/tags/white_house_washington
http://mywebsite/tags/white_house_USA
http://mywebsite/tags/the_white_house
...

I want to add the subfolder / tags / in my blacklist.
But despite several test I do not.

Could you give me the excat syntax?

Thank you in advance
Guims
 
Beiträge: 40
Registriert: Mo Sep 02, 2013 5:03 pm

Re: BlackList & SubFolder in url

Beitragvon Guims » Mo Sep 16, 2013 7:08 pm

I have try to add

.*.*/tags/.*.*

without success
Guims
 
Beiträge: 40
Registriert: Mo Sep 02, 2013 5:03 pm

Re: BlackList & SubFolder in url

Beitragvon David » Mo Sep 16, 2013 8:50 pm

I don't know how to block subfolders, but the following string blocks every URL which contains tag somewhere in the path.

.*.*/.*tag.*

Maybe the following string will only block subfolders. I don't know.

.*.*/tag/.*
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: BlackList & SubFolder in url

Beitragvon Guims » Mo Sep 16, 2013 8:59 pm

Thx for reply,

It's very strange, If i test ur regex with http://localhost:8091/RegexTest.html

Test String: http://example/tag/helloword.html
regular expression: .*.*/tag/.*
result: match

Ok i had the rules in my blacklist administration:
Blacklist Pattern
.*.*/tag/.*

Now i check with http://localhost:8091/BlacklistTest_p.html
http://example/tag/helloword.html

result: is not blocked

i dont understand
Guims
 
Beiträge: 40
Registriert: Mo Sep 02, 2013 5:03 pm

Re: BlackList & SubFolder in url

Beitragvon Guims » Di Sep 17, 2013 9:30 am

after many test I think the rules of backlist must contain the domain and not just a subfolder
Guims
 
Beiträge: 40
Registriert: Mo Sep 02, 2013 5:03 pm

Re: BlackList & SubFolder in url

Beitragvon David » Di Sep 17, 2013 11:23 am

I just tested the following string, and it works fine for me:

.*.*/tag/.*

A good way to test it, is to set yacy as proxy in your web browser settings, and then try to visit the url which should be blocked.
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: BlackList & SubFolder in url

Beitragvon fherb » So Dez 15, 2013 6:21 pm

Hi,

I have also some trouble with reg-exp in the crowl configurations.

Why we have to use

.*.*/tag/.*

and not the more simple expression

.*/tag/.*

??

Frank
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast

cron