Unsichtbare Dateien & Blacklists

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Unsichtbare Dateien & Blacklists

Beitragvon Anmibe » Mo Nov 24, 2008 1:42 pm

Kein echtes Problem und nichts Vordringliches, aber mal vielleicht etwas zu Bedenkendes.
Die Blacklistverwaltung zeigt immer alle Dateien im Verzeichnis LISTS im Auswahlmenü an, auch die Unsichtbaren (.xyz). Ist das wirklich sinnvoll?
Unter MacOS bspw. wird über kurz oder lang im Verzeichnis eine Datei .DS_Store (*) automatisch angelegt, die dann eben auch als (potentielle) Blacklist auftaucht, wo sie definitiv nichs zu suchen hat. Solange sie nicht aktiviert wird ist sie kein Problem, aber langfristig wird dies wohl immer wieder mal Fragen und wohl auch Probleme aufwerfen.

* Die Datei wird vom OS autoamtish angelegt und enthält Metadaten (Fensterpositiom, -größe, Symbole etc.) zum jeweiligen Verzeichnis
Anmibe
 
Beiträge: 48
Registriert: Mo Nov 24, 2008 12:44 pm
Wohnort: Berlin

Re: Unsichtbare Dateien & Blacklists

Beitragvon Low012 » Mo Nov 24, 2008 1:56 pm

Danke für den Hinweis. Die Blacklistdateien haben ja als Endung schon ein .black, um sie identifizieren zu können. Ich dachte bisher auch immer, das würde irgendwo gemacht, aber so ist es wohl nicht. Unter Java ist es ja eigentlich recht einfach, einen entsprechenden Filter zu bauen, dass z.B. bei einem Directorylisting nur bestimmte, einem bestimten Muster folgende Dateinamen auftauchen. Ich schaue mir das mal an...
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Unsichtbare Dateien & Blacklists

Beitragvon Low012 » Di Nov 25, 2008 9:29 pm

So, ab Revision 5366 sollten nur noch Dateien als Blacklist aufgeslistet werden, deren Name mit .black endet. Einen Check, der beim Einlesen der Dateien den Inhalt auf Gültigkeit prüft, werde ich hoffentlich demnächst einbauen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Unsichtbare Dateien & Blacklists

Beitragvon Anmibe » Mi Nov 26, 2008 5:45 pm

Low012 hat geschrieben:So, ab Revision 5366 sollten nur noch Dateien als Blacklist aufgeslistet werden, deren Name mit .black endet. Einen Check, der beim Einlesen der Dateien den Inhalt auf Gültigkeit prüft, werde ich hoffentlich demnächst einbauen.

Also unter 615/5367 funktioniert dies bei mir. Alles was nicht auf .black endet wird nicht gelistet, egal ob unsichtbar (also erstes Zeichen ein .) oder nicht.
Dabei ist mir noch etwas anderes aufgefallen. Kommentare sind in Schwarzen Listen nicht vorgesehen oder täusche ich mich da? Ist mir nur deshalb aufgefallen, weil ich meine recht große hosts-Datei auch als Schwarze Liste nehmen wollte und kommentierte Zeilen dringelassen habe.
Anmibe
 
Beiträge: 48
Registriert: Mo Nov 24, 2008 12:44 pm
Wohnort: Berlin

Re: Unsichtbare Dateien & Blacklists

Beitragvon Low012 » Mi Nov 26, 2008 6:08 pm

So wie es im Kopf habe, wird einfach alles zeilenweise eingelesen. Ich habe den Code aber nicht geschrieben und kann mich irren, weil ich da nur mal kurz reingeschaut habe.

Du hättest gern, dass alle Zeilen mit einer Raute (#) am Anfang ignoriert werden, richtig? Das sollte machbar sein. Was nicht gehen würde, wäre Kommentare zu ignorieren, die erst irgendwo in der Mitte der Zeile nach einem Text anfangen, weil ja auch in URLs Rauten vorkommen können, die (und auch der Text danach) nicht gefiltert werden sollten.

Ich werde mal schauen, ob sich das nicht irgendwie mit dem Validitätscheck für die Blacklisteinträge, den ich plane, kombiniren lässt.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Unsichtbare Dateien & Blacklists

Beitragvon Anmibe » Mi Nov 26, 2008 8:38 pm

Low012 hat geschrieben:So wie es im Kopf habe, wird einfach alles zeilenweise eingelesen. Ich habe den Code aber nicht geschrieben und kann mich irren, weil ich da nur mal kurz reingeschaut habe.

Genau so sieht es auch, jede Zeile ein Eintrag.
Low012 hat geschrieben:Du hättest gern, dass alle Zeilen mit einer Raute (#) am Anfang ignoriert werden, richtig? Das sollte machbar sein. Was nicht gehen würde, wäre Kommentare zu ignorieren, die erst irgendwo in der Mitte der Zeile nach einem Text anfangen, weil ja auch in URLs Rauten vorkommen können, die (und auch der Text danach) nicht gefiltert werden sollten.

Zumindest dabei ist es mir aufgefallen, allerdings hatte ich tatsächlich nicht daran gedacht, daß # in URLs erlaubt sind. Das Problem für Euch ist halt, daß sich hier die zwei Welten (Bash-)Skripte und Java überschneiden. Unbedingt brauchen tue ich die Kommentare nicht, aber da ich meine hosts Datei im Internet bereitgestellt habe, wie andere auch, habe ich ein paar Kommentarzeilen eingefügt (Herkunft, Kontakt, Inhalt). Wie ich die Welt kenne, kommt, sofort nachdem ihr #-Kommentare erlaubt habt, einer, der bemängelt die fehlenden /*-Kommentare, etc.
Abgesehen davon bleibt die Frage ob die Blacklistverwaltung so bleiben kann wie sie ist. Für kleine Schwarze Listen ist sie OK, aber bei größeren Listen stößt sie an die Grenzen (das gilt eigentlich auch für die hosts Datei). Ich merke es bei mir, da bei mir rd. 25.000 Einträge im Laufe der Zeit zusammengekommen sind (Spammer, Malware, Werbung, Abzocke etc.), deren Anzahl sich allerdings für yacy durch Regex reduzieren ließe.
Insgesamt ist es sowieso wichtiger, die Stabilität von YaCy zu erhöhen, denn nach recht kurzer Zeit ist der Speicher voll und der locallhost:8080 ist unerreichbar.
Anmibe
 
Beiträge: 48
Registriert: Mo Nov 24, 2008 12:44 pm
Wohnort: Berlin


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron