URL´s die bestimmte Wörter enthalten blacklisten

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Floh1111 » Di Feb 09, 2010 9:17 pm

Hi,

ich baue gerade eine Themensuche auf. Dazu Crawle ich zu einem großen Teil Wiki´s und Trac seiten.
Da dort viele Seiten vorkommen, die ich nicht in den Index aufnehmen möchte, würde ich die gerne Standartmäßig vom Crawlen ausschließen.

Beispiel:
https://dev.openwrt.org/changeset/18120 (enthält "changeset")
[url]http://wiki.freifunk-ol.de/index.php?title=Als_Entwickler_tätig_werden&oldid=840[/url] (enthält "oldid")
[url]http://wiki.freifunk-ol.de/index.php?title=Spezial:Letzte_Änderungen[/url] (enthält "Special:")
http://wiki.freifunk-ol.de/index.php?title=Netmon&action=edit (enthält "action=edit")

Wie kann ich die URL´s die die Phrasen/Wörter die ich in Klammern dahinter geschrieben habe vom Crawlen ausschließen, sodass sie nicht mit in den Index aufgenommen werden?

Mein Versuch war über die Blackliste, allerdings scheint das nur von mäßigem Erfolg zu sein. Zummindest werden die URL´s nicht als gelistet angezeigt wenn ich sie unter Blacklist testen teste.

Mein Blacklist Versuch sieht so aus:

Code: Alles auswählen
   *Special:*/.*
   *Spezial:*/.*
   *action=delete*/.*
   *action=delete*/.*
   *action=edit*/.*
   *action=history*/.*
   *action=history*/.*
   *action=protect*/.*
   *action=protect*/.*
   *action=watch*/.*
   *changeset*/.*
   *changeset*/.*
   *oldid*/.*
   *oldid*/.*
   *oldid=*/.*
   *redlink=1*/.*
   *rev=*/.*
   *rev=*/.*


Bye
Floh1111
Floh1111
 
Beiträge: 7
Registriert: Fr Nov 09, 2007 2:34 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Copro » Do Feb 11, 2010 1:35 am

Mit der Verwendung der Blackliste bist Du absolut richtig. Da hier die Einstellung einmalig für alle zukünfigen Crawl Vorgänge gespeichert werden kann. Alternativ müsstest Du bei jedem neuen Crawl den Negativ Filter (Must-Not-Match Filter:) auf http://localhost:8080/CrawlStart_p.html setzen.

Zum einen hast Du aber einige Zeilen doppelt in Deiner Liste und die regulären Ausdrücke treffen nicht Deine gewünschten URLs die ausgeschlossen werden sollen. Ich denke zum einen weil der erste Multiplikator "*" keinen "." voranstehend für alle Zeichen hat und somit nicht so ausgewertet wird wie Du möchtest.
Mein Vorschlag für die Liste:
Code: Alles auswählen
.*/changeset/.*
.*&oldid=.*
.*=Special:.*
.*&action=edit.*


Zum Testen habe ich folgenden Regex Tester genommen: http://myregexp.com und die Liste auch mal als WikiTrac.black auf meinem Peer cophome gespeichert.
Kannst Du also auch ganz einfach über den Blacklisten Import holen: http://localhost:8080/BlacklistImpExp_p.html
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon PCA42 » Do Feb 11, 2010 5:40 pm

Floh1111 hat geschrieben:[url]http://wiki.freifunk-ol.de/index.php?title=Als_Entwickler_tätig_werden&oldid=840[/url] (enthält "oldid")

Das sollte er eigentlich schon wegen dem "?" von sich aus nicht mitnehmen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Floh1111 » Fr Feb 12, 2010 10:07 am

URL´s mit Fragezeichen habe ich explizit erlaubt.

Stimmt die Regexen bei mir wahren falsch und doppelt (muss wohl beim probieren entstanden sein). Ich habe die korrigiert und mit dem Regextester von dir getestet (danke für den Link). Das ganze sieht nun folgendermaßen aus:

Code: Alles auswählen
.*/browser/.*
.*/changeset/.*
.*Special:.*
.*Spezial:.*
.*action=delete.*
.*action=edit.*
.*action=history.*
.*action=protect.*
.*action=watch.*
.*oldid=.*
.*redlink=1.*
.*rev=.*


Mir fällt auf, dass wenn ich der Blacklist einen Eintrag über die Yacy-Adminmaske hinzufüge immer ein ".*/" vor den letzten Regexausdruck gehängt wird.
Der Regextester von dir erkennt die Falschen URL´s dann nicht mehr. Um die Blacklist oben zu erhalten habe ich DATA/LISTS/url.default.black manuell editiert.
Die folgenden Fehler treten aber auch auf wenn ich das ".*/" nicht manuell wegeditiere.

Wenn ich die Blackliste mit Yacy hier überprüfe bekomme ich keine Fehler angezeigt.
Wenn ich dann aber in Yacy testen will ob eine URL erkannt wird, schlägt das fehl.

Die getestete URL war http://wiki.freifunk-ol.de/index.php?ti ... 4nderungen
Sie wird in den folgenden Fällen geblockt:


Starte ich einen Crawl bspw. auf http://wiki.freifunk-ol.de/ oder https://dev.openwrt.org/ finde ich im Index wieder massenhaft Seiten wie:
http://wiki.freifunk-ol.de/index.php?title=Spezial:Letzte_%C3%84nderungen&feed=rss
https://dev.openwrt.org/changeset/17522

Mache ich etwas falsch oder ist das ein Bug?
Floh1111
Floh1111
 
Beiträge: 7
Registriert: Fr Nov 09, 2007 2:34 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon mobidick » Fr Feb 12, 2010 3:18 pm

Floh1111 hat geschrieben:
Mir fällt auf, dass wenn ich der Blacklist einen Eintrag über die Yacy-Adminmaske hinzufüge immer ein ".*/" vor den letzten Regexausdruck gehängt wird.
Der Regextester von dir erkennt die Falschen URL´s dann nicht mehr. Um die Blacklist oben zu erhalten habe ich DATA/LISTS/url.default.black manuell editiert.
Die folgenden Fehler treten aber auch auf wenn ich das ".*/" nicht manuell wegeditiere.

Wenn ich die Blackliste mit Yacy hier überprüfe bekomme ich keine Fehler angezeigt.
Wenn ich dann aber in Yacy testen will ob eine URL erkannt wird, schlägt das fehl.

Mache ich etwas falsch oder ist das ein Bug?
Floh1111


Das gleiche Verhalten stelle ich auch fest. - Also habe ich - da in der Blacklistverwaltung als Hinweis steht "Der rechte Asterisk '*', nach dem '/', kann durch einen regulären Ausdruck ersetzt werden." - es mit dem rechten Asterisk versucht. Allerdings ohne Erfolg.

Ein Ausdruck wie
.*/.*browser.*
hatte ich vermutet, müßte dann eine URL wie http://irgendwas.de/testemich/browser.html blockieren. Entweder ist es eine Syntaxfrage oder die Regex nach dem ".*/" wird tatsächlich nicht ausgewertet.

Bei Regex vor dem ".*/" funktioniert es tadellos und wie zu erwarten.

mobidick
mobidick
 
Beiträge: 9
Registriert: Fr Feb 12, 2010 3:00 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon mobidick » Mo Feb 15, 2010 3:21 pm

Ich war etwas zu voreilig. Eine eingehende Suche im Forum hat sich gelohnt.

mobidick hat geschrieben:Also habe ich - da in der Blacklistverwaltung als Hinweis steht "Der rechte Asterisk '*', nach dem '/', kann durch einen regulären Ausdruck ersetzt werden." - es mit dem rechten Asterisk versucht. Allerdings ohne Erfolg.

Ein Ausdruck wie
.*/.*browser.*
hatte ich vermutet, müßte dann eine URL wie http://irgendwas.de/testemich/browser.html blockieren. Entweder ist es eine Syntaxfrage oder die Regex nach dem ".*/" wird tatsächlich nicht ausgewertet.

mobidick


Mit der Syntax meines Beispiel-Ausdrucks geht es nicht, aber mit der folgenden:

.*\..*/.*browser.*

Damit würden Aufrufe wie meine Beispiel-URL blockiert.

mobidick
mobidick
 
Beiträge: 9
Registriert: Fr Feb 12, 2010 3:00 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Floh1111 » Mo Feb 15, 2010 8:42 pm

Herzlichen Dank damit funktioniert es, auch wenn es etwas merkwürdig aussieht.

Endlich wieder Crawlen :)

Danke
Floh1111
Floh1111
 
Beiträge: 7
Registriert: Fr Nov 09, 2007 2:34 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Apollo19 » Mi Dez 07, 2011 7:23 pm

Wenn man nun alle URLs blockieren will bei denen z. B. das Wort "Auto" irgendwo innerhalb der URL vorkommt, z.B.:

http://www.direktautovermietung.com
http://autokauf.blablabla.com
http://blabla.blabla.com/schnelleautos.html

Wie kann man das bewerkstelligen? Ich habs bereits mit *auto* versucht, hat aber nicht funktioniert.
Apollo19
 
Beiträge: 25
Registriert: So Sep 18, 2011 7:01 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Apollo19 » Do Dez 08, 2011 4:44 pm

.*auto.* erkennt das Wort in Subdomain und Domain, aber leider nicht im Dateinamen der Ressource.
Apollo19
 
Beiträge: 25
Registriert: So Sep 18, 2011 7:01 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Low012 » Do Mär 15, 2012 7:50 pm

Apollo19 hat geschrieben:.*auto.* erkennt das Wort in Subdomain und Domain, aber leider nicht im Dateinamen der Ressource.


Ein Blacklisteintrag muss immer aus einem Domain-Teil und einem Pfad-Teil bestehen, die durch einen Slash getrennt sind. Da .*auto.* keinen Slash enthält, hat der Eintrag also nur einen Domain-Teil und keinen Pfad-Teil.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Apollo19 » So Mär 18, 2012 6:30 pm

Das hab' ich mittlerweile auch rausgefunden.

Wenn ich jede URL die das Wort "werbung" im Domainnamen oder Pfad enthält blockieren will mache ich das nun mit folgenden beiden Einträgen:

Code: Alles auswählen
.*werbung.*/.*
.*.*/.*werbung.*

Obwohl es mich nicht verwundern würde, wenn man das noch irgendwie vereinfachen könnte: z.B. die beiden Zeilen zu einer zusammenfassen.

Was mir noch aufgefallen ist, dass leider beim Pfad die Gross- und Kleinschreibung berücksichtig wird:

Wenn ich z.B. die oben genannten Einträge in der schwarzen Liste habe, wird folgende URL nicht blockiert, da das "W" gross geschrieben ist:

http://www.domain.com/Werbung.html
Apollo19
 
Beiträge: 25
Registriert: So Sep 18, 2011 7:01 pm

Re: URL´s die bestimmte Wörter enthalten blacklisten

Beitragvon Orbiter » Di Apr 17, 2012 10:23 am

hab mal eingebaut dass das vereinfacht wird: man muss nun nur noch ein Wort eingeben und dann werden automatisch die beiden Pattern eingepflegt.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste