peer "dpnufe67" im sciencenet crawlt bullshit

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon liebel-lab » Fr Jul 03, 2009 4:17 pm

hallo zusammen!
wem gehoert denn der peer " dpnufe67"...seit gestern crawt dieser "alles andere als wissenschaftliche Seiten"...
da kann man teilweise echt nur noch rot im gesicht werden... (mal wieder)
peer /inhaber und reagiert auch nicht auf persoenliche mail/nachtichten.
Kennt den jemanden? das "verschönert" gerade den sciencenet index gewaltig :-)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Nighthawk » Fr Jul 03, 2009 4:44 pm

Das Problem mit den "Verschönerungen" habe ich seit 3 Tagen. XXX-Seiten und Trojaner-Seiten. Habe aber noch nicht heraus bekommen woher die "Verschönerungen" kommen, nun wächst halt meine Index-Blacklist.
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Nighthawk » Fr Jul 03, 2009 5:01 pm

Hallo die Enten. Da will es aber einer wissen!

Habe eine weitere Domain aus dem XXX-Bereich geblockt:

Insgesamt durchsuchte URLs: 17.581 (0,21%)
URLS auf Blacklist gefunden: 264
Prozent auf Blacklist: 1,5%


Ihr glaubt gar nicht wo der Mist überall drin versteckt ist.

Happy Index-Cleaning! :o
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon fdmknjzv » Mo Jul 13, 2009 8:46 am

Hallo,
es tut mir sehr Leid, dass dpnufe67 im sciencenet aufgetaucht ist und so nen Mist in den index geworfen hat.
Es wurde die Robinson-Einstellung nicht richtig übernommen und dieser Umstand zu spät bemerkt.
Natürlich wurde das Peer bei bemerken des Fehlers sofort abgeschaltet.

Sorry nochmal an alle, die wegen diesem Missgeschick nun Zeit für die Reinigung aufbringen müssen.
fdmknjzv
 
Beiträge: 1
Registriert: Mo Jul 13, 2009 8:40 am

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Nighthawk » Mo Jul 13, 2009 9:52 am

Ich für meinen Teil kann dich beruhigen, bei mir kamen die "Verschönerungen" und besonders netten Seiten (Malware und Trojaner) nicht nur von deinem Peer sondern hingen im gesamten Index.

Darauf hin habe ich meine Bann-Liste stark erweitert und meinen Index komplett gelöscht und neu gecrawlt. Nun ist halbwegs Ruhe in meinem Index. :)
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon dulcedo » Mo Jul 13, 2009 10:16 am

Unter Win lasse ich einen Virenscanner (Avira) mitlaufen lassen der meine YaCy-Platte, die Internetverbindung und den Arbeitsspeicher scannt. Erkennt er Auffälligkeiten lasse ich den Zugrifff blockieren, Heuristik-Erkennungsstufe niedrig. So dürften Seiten mit bekannten Viren und Trojanern eigentlich nicht indexiert werden.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Nighthawk » Mo Jul 13, 2009 10:21 am

dulcedo hat geschrieben:Unter Win lasse ich einen Virenscanner (Avira) mitlaufen lassen der meine YaCy-Platte, die Internetverbindung und den Arbeitsspeicher scannt. Erkennt er Auffälligkeiten lasse ich den Zugrifff blockieren, Heuristik-Erkennungsstufe niedrig. So dürften Seiten mit bekannten Viren und Trojanern eigentlich nicht indexiert werden.


Genauso gehe ich auch vor. Aber via DHT hatte ich mir doch einige "Nettigkeiten" eingefangen (zumindest deren Ursprungsurl). Die betreffenden URLs habe ich nochmal seperat über Google überprüfen lassen und dann ab damit in die Blacklist. So bin ich mir wenigstens halbwegs sicher den Mist nicht noch weiter zu verteilen.
Nighthawk
 
Beiträge: 25
Registriert: Do Jun 28, 2007 12:14 am

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Quix0r » Mi Jul 15, 2009 1:23 am

Pr0n0-Seiten oder Trojaner-Seiten mit einfachen Blacklists oder einfachen regulaeren Ausdrucken zu bekaempfen ist meines Achtens sinnlos, da kannst du genauso gut versuchen, eine Bruecke mit Erbsen zu bewerfen und hoffen, dass sie einstuerzt. ;)

Nein, mal ernsthafter gesagt: Blacklists sind sinnlos gegen solch "Verschoenerungen" des Indexes. Ich hatte das schon mal wo anders angesprochen, was *die* machen (Formulare missbrauchen, um tonnenweise Domains automatisch registrieren, Content hochladen und in Blogs,Foren,Gaestebuechern usw. "bewerben" (durch Spamming)). Von daher wuerden unsere Blacklists so "mal eben" auf ein paar Millionen Eintraege anwachsen und das ist dann kaum noch pflegbar und wegen des Speicherverbrauches und Durchsuchen der Blacklist auch bald nicht mehr performant. Damit schiessen wir uns nur ein Eigentor und die Spammer freuen sich.

Mir ist es schnurz, ob meine Node (offene Suche, nicht thematisiert) Pr0n0/Malware-Seiten indexiert. Ich kann wegen dem oben besagten nichts dagegen ausrichten, dass sich solch "Heimatsfilm/-bilder Seiten" in den Index reinmogeln.

Meiner Meinung nach - nochmals hier angebracht - gibt es und wird es auch nie ein perfektes System gegen diesen Index-Spam geben. Wir koennen es denen nur schwerer machen, indem wir den Algorythmus verbessern, hyristische und/oder bayische Filter verwenden - die also "intelligenter" sind als starre Blacklists. Und eine Whitelist von Domains ist genauso unsinnig - abgsehen fuer das Science-Net vielleicht.

Naja, gutes Naechtle erstmal. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon dpnufe67 » Mo Aug 03, 2009 12:42 pm

Liebe yacy-Freunde,

ich bitte vielmals um Entschuldigung für den bullshit der gecrawlt wurde. Allerdings muß ich auch betonen, daß das unzensierte Internet leider soetwas bietet.

Der Grund: Ich habe in einer zu großen Tiefe crawlen lassen.

Woher genau diese sexuellen Seiten kommen, kann ich zwar nicht bestimmen, aber beispielsweise http://web.mit.edu/lca/gamma/free-cartoon-porn.html klingt in der Domain ok, aber hintenraus ist es als Pornographie.

Ich bitte nochmals um Entschuldigung dafür! Es war garantiert nicht die Absicht hier als Spammer auzutreten.

Trojaner, Malware etc. konnte ich in meinem Index nicht finden. Aber bei dem Crawl kann ich das natürlich nicht genau sagen.

Vielleicht konnte ich hiermit zumindest eine Schwäche aufzeigen: Es ist so mit yacy kaum möglich automatisiert in die Tiefe zu crawlen.

In Zukunft werde ich nur noch einzelne, ausgesuchte, wissenschaftliche Domains abgrasen. Versprochen!
dpnufe67
 
Beiträge: 1
Registriert: Mo Aug 03, 2009 12:22 pm

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon hendi » Mo Aug 03, 2009 4:35 pm

Ist das Problem hier nicht viel eher, dass sich jedermann ins Sciencenet einklinken und deren Index befüllen kann?
hendi
 
Beiträge: 35
Registriert: Mi Jun 27, 2007 11:50 am

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Quix0r » Mi Aug 05, 2009 11:00 am

Das denke ich auch. Man sollte da so eine Art Zugangskennung machen, okay hat mich offenem Internet nichts zu tun, dient aber der Sicherheit, dass kein Unbefugter in's <Insert-Name-here>-Netz reinkann.

Für das (offene) Freeworld ist soetwas natürlich Humbug. :) Sonst müssten wir es nach Censored-World oder Leyen-World umbennen. :mrgreen: :mrgreen: :mrgreen:
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: peer "dpnufe67" im sciencenet crawlt bullshit

Beitragvon Orbiter » Mi Aug 05, 2009 1:41 pm

es gibt in der Netzdefinition eine Whitelist für erlaubte IPs im Netz die dort auch gesetzt ist. Da muss man mal schauen ob das richtig konfiguriert ist.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste