Blacklist

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Blacklist

Beitragvon Adama » Fr Okt 17, 2014 11:21 pm

Hallo!

Ich versuche den Datenschrott beim Crawlen draußen zu halten.
Dafür würde ich gerne die Liste
http://www.axmo12.de/yacy/axel.black

importieren.

Weder ist ein Laden von der URL möglich noch ein Import von der Textdatei.

Was kann ich tun?

Das nutzen von Blacklists würde das Crawlen insgesammt effektiver machen und dem Gesamtindex nutzen!
Auch wäre es toll, wenn man die Listen von
http://www.squidguard.org/blacklists.html
übernehmen könnte.

Greets

Dirk
Adama
 
Beiträge: 22
Registriert: Mo Jul 14, 2014 10:48 pm
Wohnort: Köln

Re: Blacklist

Beitragvon TmoWizard » Sa Okt 18, 2014 12:40 am

Gleich zu Anfang kommt Amazon, das ist ja wohl ein schlechter Scherz! Wenn ich was mit YaCy suche, dann sollte da Amazon natürlich ebenfalls mit dabei sein. Auch der Heise-Verlag ist mit dabei und noch einige andere, die garantiert nicht in eine Blacklist gehören.

Solche Listen kann man bei einer dezentralen Suchmaschine sowieso nur auf dem eigenen Rechner einsetzen, einen anderen Peer interessieren diese Listen mal gar nicht. Oder man verwendet sie gleich systemintern, z. B. im Router, dann bekommst du sie gar nicht mehr zu sehen und dein YaCy kann auch nicht darauf zurückgreifen!

Öhm... gerade auf der Liste gesehen:

axel.black hat geschrieben:comdirect.nl/.*


Da ist ja die komplette niederländische comdirect Bank gesperrt, soll das ein Witz sein? YaCy wird auch in den Niederlanden verwendet, würdest du die alle aus ihrer Bank aussperren wollen, oder was? :shock:
TmoWizard
 
Beiträge: 142
Registriert: So Jul 13, 2014 3:32 pm
Wohnort: Augsburg

Re: Blacklist

Beitragvon Erik_S » Sa Okt 18, 2014 8:02 am

Hallo,

auch ich interessiere mich für das Einbinden von umfangreichen Blacklists, mir geht es dabei aber vor allem um Dinge die ich wirklich nicht auf meiner Festplatte haben möchte (also primär Pornos und schlimmeres, aber auch Werbe-Server u.ä.).
YaCy ist doch so eine Art "abfragbare Link-Liste" und wenn ich mir ansehe wie die Betreiber anderer Link-Listen (z.B. der Piraten-Bucht) von den Justizbehörden dieser Welt behandelt werden dann will ich es auf gar keinen Fall riskieren ähnliche Erfahrungen zu machen. Es geht mir also darum das der von mir betriebene YaCy-Peer unter keinsten Umständen Links auf Seiten ausliefert (egal ob per WWW-Suchmaske oder DHT-Transfer oder Remote-Query) die eventuell von den Behörden beanstandet werden können.

Daher mal eine Frage:
Funktioniert es den lokalen Index regelmäßig zu säubern? Ohne die Hash-Werte zu löschen sondern nur einzelne Links zu entfernen (egal welchem Hash-Wert die zugeordnet sind).
Ist also der Index gezielt und effizient nach den Links durchsuchbar?

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: Blacklist

Beitragvon Adama » So Okt 19, 2014 4:11 pm

Grundsätzlich geht es mir darum, MEHR Inhalt in den Index zu bekommen.
Dazu muß aber jeder Nutzer crawlen und daher sollte auch des Remotecrawlen standartmäßig eingeschlatet sein!

Das geht aber nur, wenn ich mich dann nicht versehentlich / vorsätzlich Strafbar mache.

Daher würde ich folgende Vorgehensweise Sinnvoll halten:

RemoteCrawling ist immer an.
Im Grundmenü (Sprache, Peername, Nutzungsart, Portnummer) wird ergänzt, welche Filterlisten ich verwenden möchte:
(Porno/Werbung (die Adblocklisten!)/Gewalt/nach Land)
Dann liegt es weiterhin an jedem einhzelnen, was er scannt, indexiert und weiter verteilt...

Was haltet Ihr davon?

Dirk
Adama
 
Beiträge: 22
Registriert: Mo Jul 14, 2014 10:48 pm
Wohnort: Köln


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron