Wie funktionieren RegEx?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wie funktionieren RegEx?

Beitragvon tosho » Mi Okt 08, 2008 5:00 pm

Hallo zusammen,

ich habe ein kleines Verständnisproblem mit den RegExen für die Blacklisten:
Wenn ich z.B. .*foo.com/.* eingebe und dann die Blackliste teste sagt mir der checker, daß ich ein ungültiges Zeichen in der RegEx hätte. Wenn ich den ersten Punkt weglasse (also nur *foo.com/.*) ist er zufrieden. Das ist aber, soweit ich es verstehe, keine RegEx mehr (hat auch keine Entsprechung auf der Seite, die als Hilfsreferenz angegeben ist).

Habe ich einen Denkfehler?

Noch ne Frage:
ich möchte alle Subdomains und gleichzeitig alle Endungen (also .de .com .net .tv) einer Domain blacklisten. Wenn ich *.google.*/.* benutze bekomme ich den Fehler, daß ich zwei Wildcards im Hostnamen habe. Kann ich das irgendwie umgehen.

Dritte und letzte Frage: :-)
Ich möchte alle Seiten aus Wikipedia, außer den deutschen blacklisten (das Wikipedia aus der inneren Mongolei interessiert mich nicht wirklich)
NICHT geblockt werden sollen also: wikipedia.de und de.wikipedia.org (oder auch nur de.wikipedia.org)
Alle anderen sollen geblacklistet werden. Geht das?

Danke für die Hilfe
tosho
 

Re: Wie funktionieren RegEx?

Beitragvon tosho » Mi Okt 08, 2008 5:26 pm

Nachtrag:
was bedeutet eigentlich ein punkt ( . )?
Eigentlich steht das ja für jedes beliebige Zeichen

Filtere ich mit "ads.*/.*" jetzt nur die adserver (ads.foo.com) oder auch adsolute-incredible.com. Die richtige RegEx für das Filtern der Ad-Server wäre ja "ads\..*/.*", doch das liefert mir ein "Host enthält ungültige Zeichen".

Total verwirrt... :?

P.S. Eure captchas sind ja teilweise eine echte Herausforderung :)
tosho
 

Re: Wie funktionieren RegEx?

Beitragvon Low012 » Mi Okt 08, 2008 6:38 pm

Der Blacklist-Cleaner scheint leider mit der aktuellen Blacklist-Filterengine nicht ganz konform zu sein. Ursprünglich waren für die Blacklist Einträge in einer an RegEx angelehnten Syntax zulässig, wo der Punkt in einigen Fällen aber ein richtiger Punkt war. Beispiel dafür sind ja auch noch auf der Blacklist-Seite angegeben. Da das einigen Leuten nicht gereicht hat und sie echte RegEx nutzen wollten, gab es längere Zeit eine zweite Blacklist-Filter-Engine, die man alternativ nutzen konnte. Irgendwann wurden dann beide zusammengelegt, so dass man nun beides nutzen kann. Nur der Cleaner scheint da etwas hinterher zu hinken.

Ich habe z.B. bei mir in der Blacklist .*\.ebay\..*/.* drin, was wunderbar funktioniert, aber auch bemängelt wird. Wenn du also sicher bist, dass es funktioniert, hör nicht auf YaCy. Ich habe mir für Ende des Monats (Urlaub :)) vorgenommen, die Oberfläche zur Blacklist-Verwaltung mal etwas zu überarbeiten. Wenn ich es noch schaffe, schaue ich mir den Cleaner auch mal an.

Wenn du unsicher bist, ob dein RegEX nun funktioniert oder eventuell zuviel filtert (man vertut sich bei RegEx ja relativ schnell), kannst du das ja mit dem Testfeld oben auf der Blacklist-Seite überprüfen. Dort einfach die zu prüfende Adresse eingeben. Es ist dabei egal, welche Liste zur Bearbeitung ausgewählt ist, es werden alle getestet.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wie funktionieren RegEx?

Beitragvon Vega » Mi Okt 08, 2008 8:52 pm

@Low012 - ich fände es ganz super wenn Du Dir das mal ansehen würdest, ich habe ja vor längerer Zeit mal mit der Blacklist herumgespielt - meine Erfahrungen dazu stehen hier: http://forum.yacy-websuche.de/viewtopic.php?f=5&t=1156&hilit=

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron