Blacklist import

Ideen und Vorschläge sind willkommen.

Blacklist import

Beitragvon McFly » Mi Mär 09, 2011 12:46 pm

Wäre es sehr umständlich Yacy so umzuschreiben das Blacklisten importiert werden können wie die bei Squid benutzt werden.

http://www.squidguard.org/blacklists.html

Die Urls von XXX Seiten alle einzutragen ist sehr umständlich.
McFly
 
Beiträge: 3
Registriert: Mi Mär 09, 2011 12:39 pm

Re: Blacklist import

Beitragvon Low012 » Mi Mär 09, 2011 4:07 pm

Ich habe schon öfter mal überlegt, einen Importer für andere Blacklisten zu schreiben. Adblock Plus wäre auch so ein Kandidat, weil da die Listen sehr aktiv gepflegt werden. Wenn man das noch mit einer Art Abo-Service verbinden würde, wäre das eine feine Sache für Leute, die den Proxy in YaCy benutzen und einen Browser benutzen, der keinen Adblocker unterstützt. Da Adblock Plus und die von dir angesprochenen Listen aber unterschiedliche Ziele verfolgen, können sich die beiden Möglichkeiten auch schön ergänzen.

Ich kenne das Format der Squid-Blacklisten nicht und habe mir nur eben ganz kurz ein bisschen Schau gemacht Eine tar.gz- bzw. tgz-Datei zu öffnen, müsste mit YaCy-Bordmitteln möglich sein, ohne dass man die Java-Welt verlassen muss.

In der von mir heruntergeladenen Datei habe ich url, domain und diff-Files gefunden. Ich muss nochmal genauer schauen, welches Konzept hinter dem Ganzen steht. So wie ich das gesehen habe, gibt es aber entweder Domains oder URLs, die gefiltert werden können. Das müsste sich eigentlich wunderbar mit der internen Datenstruktur in YaCy vereinbaren lassen.

Ich denke also, dass es prinzipiell auf jeden Fall machbar ist, es muss nur jemand machen. Mich würde das auf jeden Fall auch reizen und ich denke nicht, dass das für eine erste Version länger als ein Wochenende dauert (eher weniger). Leider bin ich zur Zeit privat und beruflich ganz gut ausgelastet, so dass ich nicht weiß, wann ich dazu kommen würde. Wenn also jemand Lust hat...
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Blacklist import

Beitragvon McFly » Mi Mär 09, 2011 5:30 pm

Das Automatische importieren der Datei wäre schön, ist aber nicht mein Anliegen.

Mir geht es nur um die XXX Blacklist die fast 2 Mio Urls hat und beim Import über die Yacy Seite 1. der Browser überfordert ist wenn die ganze Liste nach dem Import ausgegeben wird und 2. Yacy für Stunden nicht erreichbar ist da es so lange dauert.

Ich habe ein Shellscript geschrieben was die Domains mit /* erweitert und ich dann die Ausgabe unter DATA/LISTS ablege. So weit geht das ja ist aber sehr umständlich gerade für die die kein Linux haben. Ich finde das sollte einfacher gehen.

Würde ja auch reichen wenn es einer macht und die Anderen es sich laden könnten. Wie ist das eigentlich wenn ich Blacklisten von anderen lade. Werden die dann auch automatisch aktualisiert?
McFly
 
Beiträge: 3
Registriert: Mi Mär 09, 2011 12:39 pm

Re: Blacklist import

Beitragvon Low012 » Do Mär 10, 2011 11:25 am

McFly hat geschrieben:Wie ist das eigentlich wenn ich Blacklisten von anderen lade. Werden die dann auch automatisch aktualisiert?
Nein, das passiert nicht.

Wenn neue Elemente zu einer Blacklist hinzugefügt werden, wird aber vorher zumindest gecheckt, ob das Element schon vorhanden ist, so dass man die Blacklist nicht mit Doubletten aufbläht. Wenn YaCy also eine Methode hätte, ihm zu sagen, dass er die Blacklisteinträge eines anderen Peers komplett und ohne weitere Nachfrage importieren soll, dann könnte man das einmal von Hand anstoßen und dann über http://localhost:8090/Table_API_p.html automatisieren.

Das einzige Problem, das ich dabei noch sehen würde ist, dass sich YaCy-Peers ihre eigene Identität nicht sicher bestätigen können (z.B. über eine Authentisierung mit einem asymmetrischen Schlüsselverfahren). Das heißt, dass es unter Umständen möglich sein könnte, dass ein "böser" Peer einem im Namen eines anderen Peers ungewollte Balcklisteinträge unterschiebt. (siehe dazu auch http://forum.yacy-websuche.de/viewtopic.php?f=9&t=3180)

edit: Mir ist noch was aufgefallen:
McFly hat geschrieben:Ich habe ein Shellscript geschrieben was die Domains mit /* erweitert [...]
Du müsstest /.* benutzen. Alles nach dem ersten Slash muss ein regulärer Ausdruck sein. Ein einfaches Sternchen als Abkürzung für .* ist nur in einigen Fällen im Domain-Teil des Eintrags erlaubt. Das Blacklistformat in YaCy ist ein bisschen gewöhnungsbedürftig. Auf der Seite, wo man von Hand Einträge hinzufügen kann, wird versucht, das zu erklären, ich weiß aber nicht, ob der Versuch verständlich ist.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Blacklist import

Beitragvon McFly » Do Mär 10, 2011 5:53 pm

Das in /.* zu ändern ist ja nicht schwer. Ich habe auch versucht die Blackliste von a nach b zu importieren. Beim Import in b bekommt man ja eine Liste der Urls angezeigt die importiert werden sollen. Mein Firefox macht nach ca. 1 Mio Einträgen zu und stürzt ab. So große Listen können also nicht übertragen werden, zumindest so wie es jetzt ist nicht.
McFly
 
Beiträge: 3
Registriert: Mi Mär 09, 2011 12:39 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron