XXX spam

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

XXX spam

Beitragvon liebel-lab » Fr Dez 19, 2008 4:17 pm

hallo zusammen,
ich sehe gerade (mal wieder), das z.bsp der peer "XXX" jede menge schweinkram ins netz remote crawlen laesst. wir haben hier wirklich das problem dass wir experimente a la freeworld und co nur unterstützen koennen wen halbwegs sichergestellt ist dass nicht GB weise schweinkram von unserren maschinen gecrawlt wird. ich updtae zwar hin und wieder die eine oder andere maschine mit blacklists, aber ich waere sehr dafuer wenn huppis vorschlag nach einem echt effektiven blacklisting realiatet faende....die unschoene alternative waere halt leider dass wir alle 12 freewolrd peers vom netz nehmen....das taete mir sehr leid,...gerade da jetzt ja richtig dampf (siehe lilrasas ideen) in die crawlerdiksussion kommt....

gruss vom KIT

UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: XXX spam

Beitragvon Orbiter » Fr Dez 19, 2008 4:30 pm

guck mal in die blacklist vom kupferhammer_keller, vielleicht hilft das schon.
Bitte alle anderen in die logs gucken und Blacklist erweitern, dann hier posten in welchem Peer man die bekommt.

Ansonsten fällt mir da sonst nur ein: peer-blacklisting. Haben wir noch nicht. Kann das einer probieren?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: XXX spam

Beitragvon PCA42 » Fr Dez 19, 2008 5:18 pm

Orbiter hat geschrieben:Ansonsten fällt mir da sonst nur ein: peer-blacklisting. Haben wir noch nicht. Kann das einer probieren?

Definitiv dafür. Vielleicht wäre für Remote-Crawl aber eher eine White-List als Alternative sinnvoll.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: XXX spam

Beitragvon Lilirasa » Fr Dez 19, 2008 6:53 pm

Hallo,
spontan fallen mir zwei Dinge ein:

1.
Ich kann mich dunkel an einen Thread erinnern in dem es um den Vorschlag ging eine gemeinsame Blacklist zu erstellen, dies scheiterte dann jedoch an rechtlichem Krams, weil Abmahnungen o.Ä. befürchtet wurden. Leider finden ich diesen im Moment auf die schnelle nicht mehr.
Jedenfalls wäre vielleicht eine Hash verschlüsselte Blacklist eine Idee, somit könnte jeder seine Blacklist offen im Netz zu Download anbieten und/oder eine gemeinsame "Community-Blacklist" erstellt werden, ohne das jeder Schmuddelseiten Betreiber, der bei Google seine URL eingibt zwangsläufig auf die Blacklists stösst...

Nachtrag:
Hab den Thread mittlerweile wiedergefunden. Das Problem war demnach der Jugendschutz, da solche Blacklists dann natürlich jede Menge frei zugängliche Links zu Schweinkram bieten würden.
Link zum Thread --> http://forum.yacy-websuche.de/viewtopic.php?f=15&t=449&p=11140&hilit=blacklist#p11140

2.
Ebenfalls eine weitere Idee, die schon mal da war:
Man kann davon ausgehen, das praktisch jede Schmuddelseite, entweder das wort porn oder xxx enthalten wird. Jetzt könnte man eine RED(?)-LIST erstellen, welche Wörter enthält, welche nicht in den Index gelangen sollen. Der Parser nimmt dann die URL nicht in den Index auf...

Noch etwas zum Thema Zensur:
Jede ausschliessende Liste ist (aus meiner Sicht) eine Form von Zensur. ich kann natürlich verstehen, das einige keinen Schweinekram auf Ihren Rechnern/Suchergebnissen haben wollen, diese sollten natürlich unbedingt die Möglichkeit erhalten, dies auch umzusetzen.
Ich würde aber nicht so weit gehen wollen, Schmuddelseiten ganz aus dem Freeworld-Netzwerk zu werfen, denn dann wär Yacy keine unzensierte Suchmaschine mehr.
Deshalb sollten URL's welche per Blacklist (oder irgendeiner anderen Liste) wegen auf einem Peer verworfen werden, per Remotejob einfach an andere Peers weitergegeben werden.
Nicht das ich Schmuddelseiten unbedingt bräuchte :lol: , aber ein Hauptkriterium, welches mich für Yacy begeistert hat ist die Unmöglichkeit der Zensur. Diese sollten wir meiner Meinung nach im grösstmöglichen Umfang beibehalten.

Grüsse
Andi
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: XXX spam

Beitragvon lulabad » Sa Dez 20, 2008 2:50 pm

Also ich glaube nicht dass man mit einer Peer-Blackliste sehr weit kommt. Der Peer braucht nur täglich einen neuen Hash generieren und schon kämpfst du gegen Windmühlen.
Wie wäre es dagegen mit einer Peer-Whitelist fürs remote Crawlen. Die kann man ganz gut pflegen und neue Peers sind erstmal ausgenommen. Wenn sie keine Schmuddelsachen crawlen dann kann man sie in die Whitelist aufnehmen. Die kann auch gerne jemand freiwillig pflegen.

Ich bin auf jeden fall gegen eine zentrale Verwaltung von Listen jeglicher art. Das ist Zensur egal wie man es dreht und wendet.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: XXX spam

Beitragvon Lilirasa » Sa Dez 20, 2008 5:01 pm

Noch eine Idee, welche allerdings sehr arbeitsintensiv für die Entwickler werden würde (glaube ich). Auch mal nur in "Rohfassung", nichts ausgereiftes... :roll:
Ich begebe mich jetzt ein bisschen auf Glatteis, da ich im Grunde keine Ahnung vom Programmieren habe, falsch Ausdrücke bitte entschuldigen :roll: :

Wir führen einen Jugendschutz Modus ein, welcher jeder nach belieben ein oder ausschalten kann.
Jede URL im Index erhält einen neuen "Jugendschutz-Flag", dieser würde je URL nur 1Bit beanspruchen, da 0=Jugendfrei, 1=Jugendgefährdend. Würde bei 20Mio URL's also nur 2.5Mb Plattenplatz beanspruchen.
Um Schmuddelseiten und bei dieser Gelegenheit vielleicht auch noch gleich rechtsextreme, antisemitische, gewaltverherrlichende (etc.) Seiten einigermassen zuverlässig zu erkennen, müsste dann unter anderem folgendes her:

1. "Selbstlernender intelligenter Filter", wie z.B. bei Mozilla Thunderbird zum Spamschutz eingesetzt wird. Evtl. lässt sich in Yacy ein für unsere Zwecke modifizierter Java-Spamfilter, wie beispielsweise http://www.spamanto.net (weiss allerdings nicht, ob der "intelligent" ist) relativ leicht integrieren?
Die "Definitions-Listen" könnten via DHT regelmässig über das Yacy-Netzwerk verteilt werden.

2. In der Ergebniss-Liste müsste ein neuer Button eingefügt werden, welcher, Seiten die durch den Filter schlüpfen gemeldet werden können. Der Filter müsste dann die entsprechende Seite analysieren und entsprechend "lernen" können. Das knifflige hierbei ist jedoch, wenn jemand eine Seite in den Suchergebnissen als Jugendgefährdend meldet, dies nur als Indiz dienen darf, nicht jedoch als "der Wahrheit letzter Schluss" betrachtet werden kann. Ansonsten könnten Sich z.B. zwei kunkurrierende Onlineshops für Kinderspielzeuge gegenseitig aus den jugendfreien Suchergebnissen verbannen. Ich weiss nicht ob das befriedigend umgesetzt werden kann... :|

3. Ich gehe mal davon aus, dass nicht jeder, welcher bewusst Schmuddelseiten Crawlt, unbedingt in böserwilliger Absicht das ganze Netzwerk "vergiften" will. Bei der Crawlstartseite könnte man deshalb ein "Jugendgefährdende Inhalte" Häckchen einführen. Remotejobs werden dann nicht mehr an Rechner weitergegeben, welche im "Jugendschutz-Modus" laufen.

4. Der in Yacy integrierte Proxy, könnte erkannte Jugendgefährdende Seiten (bei entsprechender Konfiguration) gleich ausfiltern. Dies wäre vielleicht für Eltern ein Ansporn, einen Yacy-Peer zu betreiben.

5. Weitere Ideen? :?:


Alternativ, als Sofortmassnahme für das KIT, könnte den 12 Peers ein Proxy vorgeschaltet werden, welcher Jugendgefährdende Inhalte ausfiltert. So wäre für diese Peers der Grossteil der Schmuddelseiten gar nicht erst erreichbar.
z.B http://www.squidguard.org/

Grüsse
Andi
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: XXX spam

Beitragvon bluumi » So Dez 21, 2008 12:07 am

lulabad hat geschrieben:Ich bin auf jeden fall gegen eine zentrale Verwaltung von Listen jeglicher art. Das ist Zensur egal wie man es dreht und wendet.

Kann ich nur zustimmen.
Hier nur eine "kleine" Geschichte .. auch ich währe bei so einer Liste auf dem Index gelandet.
Ich hab eine Seite indexiert mit Tiefe 6 auf welcher ein leicht anstössiger Banner war, der mich wohl vom rechten Weg abbrachte. Jedenfalls hatte ich erst nach Stunden bemerkt, dass ich Seiten von einem EscortService und deren "Verwandschaft" abcrawlte. So könnte auch ein Unschuldiger recht einfach auf eure (Peer)BlackListe geraten, oder einer der auf der Weissen Liste ist plötzlich "böse" Links produzieren. Verschliessen wir uns also nicht der Realität, im Internet gibt es Seiten mit Porno und XXX :-D Jedwelches führen von Black / white Listen von Seiten ist "zensur" gegen Windmühlen, aber das führen von Listen gegen Peers kann zur Zensur der übelsten Art führen. (kann)

Ich bin durchaus dafür, dass Links zu Domains gesammelt werden, man diese einsetzten *darf*, aber auf gar keinen Fall dass es eine "automatische" Funktion gibt Peers auszuschliessen, weil jemand jemanden brandmarkt. (Stasi)

Lilirasa hat geschrieben:4. Der in Yacy integrierte Proxy, könnte erkannte Jugendgefährdende Seiten (bei entsprechender Konfiguration) gleich ausfiltern. Dies wäre vielleicht für Eltern ein Ansporn, einen Yacy-Peer zu betreiben.

Finde ich eine sehr interessante Idee um Yacy zu "vermarkten" :) Nur, wer führt die Liste der Judendgefährdeten Seiten? Und, ist YACY bereits dermassen stabiel um für so einen Zweck als Torwächter zu laufen?
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: XXX spam

Beitragvon Lilirasa » So Dez 21, 2008 12:07 pm

bluumi hat geschrieben:
Lilirasa hat geschrieben:4. Der in Yacy integrierte Proxy, könnte erkannte Jugendgefährdende Seiten (bei entsprechender Konfiguration) gleich ausfiltern. Dies wäre vielleicht für Eltern ein Ansporn, einen Yacy-Peer zu betreiben.

Finde ich eine sehr interessante Idee um Yacy zu "vermarkten" :) Nur, wer führt die Liste der Judendgefährdeten Seiten?


Zwei Möglichkeiten:

1. Wir machen bereits vorhandene Blacklisten für Yacy nutzbar. z.B. http://www.URLBlacklist.com (ca. 2Mio URL's und Domänen)
2. Yacy erkennt Schmuddelseiten automatisch. (In meinem Post weiter oben beschrieben)

Wichtig ist auf jeden Fall, das jeder selbst entscheiden kann, ob er diese Listen einsetzen will und um Zensur im Gesamtnetzwerk zu verhindern, müssten URL's welche als anstössig erkannt wurden, per Remotecrawljob an den nächsten Peer weitergeben werden.

bluumi hat geschrieben:Und, ist YACY bereits dermassen stabiel um für so einen Zweck als Torwächter zu laufen?


Der Proxy läuft bei mir jedenfalls sehr stabil. Ganz selten kommt es vor, dass das CSS-File von Webseiten nicht übertragen wird...

Grüsse
Andi
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: XXX spam

Beitragvon dulcedo » Mo Dez 22, 2008 4:14 am

Viele Kennzeichenen ihre Schmuddelseiten in Europa sogar mit ICRA, in USA entsprechende Dienste wie Surf-Watch, Net-Nanny, etc...
Alles Tags die man einfach nur auslesen muss. Verwendet der Betreiber sie nicht, Pech, ansonsten würde ich die unbedingt auswerten, nebenbei nettes Feature ein Rating nach ICRA.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: XXX spam

Beitragvon Low012 » Di Dez 23, 2008 12:04 am

Ich habe auf meinem Peer mal für begrenzte Zeit (ca. eine Woche) nur die XXX-Blacklist freigegeben und den Rest gesperrt, so dass die bei Bedarf ohne "Kollateralschäden" übernommen werden kann. Der Peer heißt 4o4
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: XXX spam

Beitragvon bluumi » Di Dez 23, 2008 10:47 pm

Low012 hat geschrieben:Ich habe auf meinem Peer mal für begrenzte Zeit (ca. eine Woche) nur die XXX-Blacklist freigegeben. Der Peer heißt 4o4

Vielen Dank, auf meinen Buissines Peers hab ich die Liste dankend hinzugefügt. Nun käme natürlich die frage auf, wie man helfen könnte die Liste zu erweitern :)
Ich mein, vielleicht könnte ich noch ein paar "Escort" Links auftrieben :twisted: ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: XXX spam

Beitragvon Nighthawk » Di Dez 23, 2008 11:18 pm

Auch ich habe die Liste dankend übernommen. :)

bluumi hat geschrieben:
Low012 hat geschrieben:Ich habe auf meinem Peer mal für begrenzte Zeit (ca. eine Woche) nur die XXX-Blacklist freigegeben. Der Peer heißt 4o4

Vielen Dank, auf meinen Buissines Peers hab ich die Liste dankend hinzugefügt. Nun käme natürlich die frage auf, wie man helfen könnte die Liste zu erweitern :)
Ich mein, vielleicht könnte ich noch ein paar "Escort" Links auftrieben :twisted: ;)


Warum nicht, kann doch erweitert werden. :)
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: XXX spam

Beitragvon Vega » Di Dez 23, 2008 11:57 pm

Ich hab die Liste auch kopiert (vega-1), danke für Deine Mühe !

Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: XXX spam

Beitragvon bluumi » Mi Dez 24, 2008 1:31 am

Hab die Liste von 404 nun bei mir um rund 100 weitere Sites ergänzt und geshared. (BluumiOne)
Falls ich Zeit finde add ich in paar Stunden noch ein paar Dutzend :)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: XXX spam

Beitragvon Lotus » Mi Dez 24, 2008 10:20 am

Einserseits sehe ich die Problematik, wenn Adressen eines Instituts auf unerwünschte Seiten zugreifen.
Andererseits finde ich eine Blacklist wenig effektiv. Ich schätze, dass xxx-Seiten einen Großteil des Internet ausmachen. Die freiwillige Kennzeichnung in Metatags gehen auch erst auszuwerten, wenn die Seite schon geladen wurde. Ebenso kann eine Blacklist erst erstellt werden, wenn die Seite schon aufgerufen wurde. Der Lösung näher finde ich die Idee "Trusted-Peers".
Grundsätzlich bin ich der Meinung, dass übergenaue, radikal eingesetzte Blacklisten dem Netz eher schaden. Eine Blacklist auf DHT zerstört z.B. Wortreferenzen. Welche Inhalte angezeigt werden sollte letztendlich über die Suche entschieden werden. Aus diesem Grund habe ich meine Blacklist ausschließlich dem Crawler aktiviert. Seiten die mir zu groß werden trage ich dann dort ein.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: XXX spam

Beitragvon Low012 » Mi Dez 24, 2008 11:05 am

Blacklisten sind ja schon prinzipiell kein Allheilmittel. Sie müssen von Hand angelegt und gepflegt werden (auch mal nicht mehr aktuelle Einträge löschen!) und es ist wie bei Virenscannern: man kann immer nur reagieren, außer man arbeitet mit Heuristiken, die aber auch mal zu Fehlalarmen führen können (Staatsexamen ;)).

Die Trusted-Peer-Idee finde ich aber auch nicht ganz unproblematisch. Da ein "böser" Peer seinen Namen und Hash ändern kann, wäre eine Peer-Blacklist relativ nutzlos. Man muss also eine Whitelist nutzen. Wenn man nun eine solche Liste von Hand pflegen muss, würde dies dazu führen, dass dies wahrscheinlich kaum jemand macht und DHT sowie remote Crawls stark behindert würden.

Eine Lösung wäre vielleicht, die Whitelist automatisch vom Peer pflegen zu lassen (optional von Hand), wobei z.B. nach einer bestimmten Laufzeit (3 Tage, 7 Tage, wasweißich) ein neuer Peer automatisch auf die Whitelist kommt. Das würde Peers ausschließen, die oft ihren Hash wechseln. Eine Bedingung wäre allerdings, dass der Peer nicht übermäßig viele URLs schickt (DHT oder remote Crawl), die den eigene Maßstäben widersprechen.

Dabei sehe ich aber auch Probleme:

    Man muss die eigenen Maßstäbe irgendwie definieren. Macht man das über URL-Blacklists, hat man nichts gewonnen, außer dass noch radikaler Geblockt wird, als wenn man die URL-Blacklist "pur" einsetzt.

    Der eigene Peer muss eine dauerhafte Statistik darüber führen, wie lange andere Peers online sind, wie oft sie Daten schicken und welcher Prozentsatz der Daten den eigenen Kriterien widerspricht. Ist das Überwachung?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: XXX spam

Beitragvon bluumi » Mi Dez 24, 2008 12:09 pm

Lotus hat geschrieben:Andererseits finde ich eine Blacklist wenig effektiv. Ich schätze, dass xxx-Seiten einen Großteil des Internet ausmachen.

:twisted:
Da kann ich nur zustimmen, xxx = Geld = grossteil des Netzes.
Diese 100 Domains konnte ich einfach im yacy Index finden, also verstehe ich nun deutlich besser was liebel-lab mit SPAM meinte :-) es muss massiv viel XXX rem.Crawlwork geben :)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: XXX spam

Beitragvon dulcedo » Mi Dez 24, 2008 5:20 pm

Das Problem ist, dass, innerhalb Deutschlands zumindest, eine "harmlose" Seite oft einfach durch rotierende Werbebanner auf nicht jugendgefährdende Erotik verlinkt, dort landet man dann über einen Ebensolchen auf einer internationalen Seite und hier sind nun meistens keine Unterscheidung mehr zwischen "harmloser" Erotik und "harter" Pornographie.
Von dort lande ich dann sofort in einschlägigen Netzwerken und dort findet ein Crawler kaum wieder raus weil alles tausendfach untereinander verlinkt (nennen die auch noch SEO, google jedenfalls mag solche Netzwerkseiten mit maschinell erzeugten, ständig wechselnden Inhalten.)

Startet mal einen Crawl auf Bilde.de oder Blick.ch, beliebiger Artikel, spätestens bei Tiefe 4 landet der Crawler auf den härtesten Pornoseiten.

Ich glaube, so ärgerlich das auch ist, wer unzensierte Suchergebnisse präsentieren will muss auch diese Schmuddeleien in Kauf nehmen, das Netz ist nun mal voll davon.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: XXX spam

Beitragvon Lilirasa » Do Dez 25, 2008 1:54 pm

Salut,
Ich habe mal Versuchweise eine Blacklist mit 893'089 Schmuddel Domänen erstellt bzw. in regex konvertiert. 8-)
Diese habe ich dann in /DATA/LISTS unter xxx.black abgelegt, das Ergebniss ist nun, das Ich die Blacklistverwaltung nicht mehr öffnen kann... :cry:
Die Index-aufräum-Funktion arbeitet auch nur mit der default.black...

Daraus schliesse ich, das YACY ab einer gewissen Anzahl Einträgen in der Blacklist einfach überfordert ist, dh. mit einer Blacklist möglichst alle Schmuddelseiten auszuschliessen ist, wie ich das sehe mit gegebenen Mitteln nicht möglich...

Grüsse
Andi
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: XXX spam

Beitragvon lulabad » Do Dez 25, 2008 2:02 pm

Lilirasa hat geschrieben:Ich habe mal Versuchweise eine Blacklist mit 893'089 Schmuddel Domänen erstellt bzw. in regex konvertiert. 8-)

Wow, nicht schlecht. Aber ich denke auch mal dass das nicht mehr sehr performant sein wird.
Im schlimmsten Fall muss jede URL mit allen Elementen aus der Blackliste ein Regex Check gemacht werden. Ich denke nicht dass man hier noch im ms Bereich sein wird, wohl eher schon im Sekunden bereich.

Der Indexcleaner arbeitet übrigends mit allen Blacklisten. Ich hab das gerade überprüft und funktioniert bei mir. Das kann eigentlich nur bedeuten, dass yacy die Blackliste gar nicht ganz eingelesen hat.
Hast du irgend welche Fehlermeldungen im Log?

Edit:
Klar wird die Blackliste im Indexcleaner nicht angezogen. Du hast sie wahrscheinlich nur in das Verzeichnis kopiert. Das reicht aber nicht, man muss sie natürlich noch für die einzelnen Bereiche (dht, indexer, crawler...) aktivieren. Ist natürlich blöd wenn man die Seite nicht mehr aufrufen kann. :roll:
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: XXX spam

Beitragvon dulcedo » Do Dez 25, 2008 2:14 pm

Don Quichotte ...
Mit Filtern ist dem nicht beizukommen, nichtmal mit intelligenten Wortfiltern für Domainnamen.
Wenn man sich mal in die Gedankengänge dieser Webmaster versetzt ist ja deren Hauptziel ihre "Gateways" zum eigentlichen Content (abertausende kleine Seiten mit z.B. paar Bildchen oder Videos drauf), finden zu lassen.

Also werden diese für Crawler optimiert und und zusätzlich mit Hilfe von Domainnamen und maschinell generiertem Content (z.b. Blogs) für eine SuMa interessant die auch Inhalte analysiert.

Wenn die es nun darauf anlegen von Google gefunden zu werden tappt YaCy da natürlich auch rein, ich sehe zumindest keinen Weg das zu verhindern.
Falls doch möglich wäre das natürlich hochinteressant, aber: Stichwort Open Source, die Branche ist ja auch nicht auf den Kopf gefallen.

Wenn Know-How, bezüglich der von vielen Adult-Webmaster benutzen SEO, benötigt wird könnte ich mithelfen eine Strategie zu entwickeln.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: XXX spam

Beitragvon Low012 » Sa Dez 27, 2008 1:50 pm

Lilirasa hat geschrieben:Ich habe mal Versuchweise eine Blacklist mit 893'089 Schmuddel Domänen erstellt bzw. in regex konvertiert. 8-)
Diese habe ich dann in /DATA/LISTS unter xxx.black abgelegt, das Ergebniss ist nun, das Ich die Blacklistverwaltung nicht mehr öffnen kann... :cry:

Das ist ja mal eine respektable Liste! Wenn man die Blacklistverwaltung öffnet und diese Riesenliste ist diejenige, die dann gleich angezeigt wird, wird erstmal eine HTML-Seite mit allen Einträgen erstellt. Das kann dauern und ist riesig groß. Dass YaCy spätestens da (wenn nicht schon vorher irgendwann) in die Knie geht, kann ich mir gut vorstellen. Früher wurde auf der Seite statt einer langen Liste eine Auswahlbox angezeigt, die ich aber für große Listen ungeeignet fand und sie daher durch die Liste ersetzt habe. Dass das auch nicht optimal ist, habe ich mir schon gedacht. Habe aber die partielle Anzeige der Liste erstmal aufgeschoben, weil die Listen, die ich bisher auf anderen peers gesehen habe, meistens noch halbwegs übersichtlich waren.

Die Index-aufräum-Funktion arbeitet auch nur mit der default.black...

Ich glaube, das ist ein Missverständnis. Wenn man im BlacklistCleaner eine Liste auswählt und überprüfen lässt, wird (zumindest in der aktuellen Entwicklerversion) angezeigt "x Illegal Entries for Default YaCy Blacklist Engine". Es ist also die Engine gemeint, nicht default.black. Leider arbeitet der Check fehlerhaft, da er keine normalen regulätren Audrücke erkennt, sondern nur Ausdrücke nach der urspünglichen Syntax, nach der normale reguläre Ausdrücke noch nicht möglich waren. Baustelle...

Daraus schliesse ich, das YACY ab einer gewissen Anzahl Einträgen in der Blacklist einfach überfordert ist, dh. mit einer Blacklist möglichst alle Schmuddelseiten auszuschliessen ist, wie ich das sehe mit gegebenen Mitteln nicht möglich...

Du könntest mal probieren, die riesige Liste in mehrere aufzuteilen. YaCy müsste zwar intern dann immernoch die gleiche Anzahl von Einträgen verwalten, die Blacklisteverwaltungsseite könnte aber so vielleicht wieder zur Mitarbeit überredet werden.

Das Problem bleibt aber: Don Quijote und die Windmühlen

Ein möglicher Ansatz wäre es vielleicht, wenn YaCy Ergebnisse clustern könnte, bei der Suche einen XXX-Cluster zu erzeugen und diesen bei Bedarf auszublenden. Das würde aber auch erst am Ende des gesamten Vorgangs greifen und nicht schon beim Crawlen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: XXX spam

Beitragvon Phiber » Mi Jan 07, 2009 12:09 am

So da es ein wenig in das Thema Blacklisten hineingeht, dachte ich passt es hier in den Thread.

Und zwar ist es eigentlich kein wirklich schlimmes Problem oder gar ein Bug, sondern mehr eine Performance-Frage: Ich habe mir gestern Abend mal meine Blacklist noch etwas erweitert mit der von Bluumi und paar andern Peers. Eigentlich habe ich ja nichtmal wirklich was gegen die Schmuddelseiten, mein Ziel war es vielmehr den Index zu verkleinern. Die Blacklist wurde natürlich auch aufgeräumt, Doppeleinträge entfernt.

Dann habe ich alles ausgeschaltet (Crawls, dht in/out) und den Index-Cleaner angeworfen. Heute früh, so ca 10-11 Stunden später dann ein Blick darauf: Ca 10% des Indexes wurden durchgegangen. Nun meine Frage: Dauert das wirklich so lange oder habe ich noch irgendwelche Einstellungen falsch gesetzt? Liegt das ander Programmierung oder bremst einfach die Festplatte ganz klar den Cleaner aus?
Schlussendlich kann ich YaCy leider im Moment nicht über 100 Stunden laufen lassen, ausser ich würde in den Urlaub fahren. Darum hier die Frage ob man da etwas verbessern könnte, oder ist der Index mittlerweile einfach schon so riesig, dass es so lange dauert? (ca 18/9)

Vielleicht könnte man da Daten in den Ram vorladen oder irgendwas, weil die CPU bremst sicher nicht aus. Die Auslatung ist tief wie immer (~10%), insgesamt war die CPU-Zeit laut Taskmanager mit ca 1h30min auch wirklich tief. Aber die Festplatte rattert schon ganz schön die ganze Nacht hindurch.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste