Müllhalden für Harvester

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Müllhalden für Harvester

Beitragvon Low012 » Do Nov 13, 2008 10:07 am

Ich bin eben zufällig darüber gestolpert, dass die Firma Gesellschaft für Informatik und Datenverarbeitungstechnologie zahlreiche Domains registriert hat und darunter Seiten anbietet, die dafür gedacht sind, Harvester anzulocken, die Spambots mit Emailadressen füttern. Wird an eine dieser Emailadressen eine Email geschickt, landet der entsprechende Mailserver auf einer Blacklist, die im Rahmen des Projekts NiX Spam genutzt wird.

Hier eine Beispielseite: http://forum.kundenmelder.de/Steak/Terrine_an_Salzartoffeln_und_Rotkohl.html

Im Impressum (http://forum.kundenmelder.de/impressum.htm) wird auf die Gesellschaft für Informatik und Datenverarbeitungstechnologie und die Verbindung zu NiX Spam hingewiesen.

Mit entsprechende Suchbegriffen lassen sich diese Seiten leicht finden:
http://www.google.de/search?hl=de&q=sau ... uche&meta=
http://www.google.de/search?hl=de&q=dos ... uche&meta=
http://www.google.de/search?q=%22Diese+ ... e&filter=0

Daraus ließe sich eventuell sogar automatisch eine Blacklist erstellen, die auf Wunsch verhindert, dass YaCy diese sinnlosen Seiten in den Index aufnimmt bzw. als Suchergebnis ausgibt, denn zumindest für mich sind diese Seiten wertlos.

Zum Überprüfen könnte man entweder alle Suchergebnisse aufrufen und checken, ob sie der immer gleichen Struktur entsprechen oder noch einfacher per whois checken, ob im Eintrag zur Domain "IDV GmbH" vorkommt.

Dummerweise könnte so eine Blacklist auch gut von Spammern genutzt werden. Wäre das ein Grund, sie nicht zu erstellen? Für mich gibt es 2 Gründe, die gegen Mitleid mit der Gesellschaft für Informatik und Datenverarbeitungstechnologie sprechen:

1. Eine entsprechende robots.txt könnte reguläre Suchmaschinen ausschließen. Die Harverster der Spammer werden sich soweiso kaum dran halten. Es werden aber alle Crawler in die Falle laufen gelassen.

2. So dumm, nicht selbst eine Blacklist erzeugen zu können, werden viele Harverster-Betreiber auch nicht sein.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Müllhalden für Harvester

Beitragvon bluumi » Do Nov 13, 2008 1:24 pm

http://www.wonne.de/ Dann auch gleich sperren :-D
550 verlinkte Seiten mit "sinnlos" Forumbeiträgen :-D
als Suchergebnis ausgibt, denn zumindest für mich sind diese Seiten wertlos.

Jep, keiner benötigt diese Seiten als Suchresultat :) - Freu mich diese auch bei meinen zu blacken-listen
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Müllhalden für Harvester

Beitragvon Low012 » Do Nov 13, 2008 2:03 pm

Wie hast du denn die Seite gefunden? Wer weiß, wieviel Seiten von der Sorte es noch gibt!?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Müllhalden für Harvester

Beitragvon Phiber » Do Nov 13, 2008 5:05 pm

Nunja, trotz solche Seiten sollte man nicht von Hause aus in YaCy Sachen werten, selbst wenn sie noch so nutzlos sind.

Man sollte wenn dann das ganze eher über die Blacklist angehen, man kann natürlich auch Standardpakete von Blacklists. Wie ich gerade gesehen habe kann man ja schon jetzt die Blacklist bequem über file oder url erweitern und am allerchilligsten auch von andern Peers, falls man meint derjenige habe ne gute Blacklist. Was man natürlich zur Blacklist noch hinzufügen könnte wären Zusatzoptionen/Informationen welche eine Verwaltung der Blacklist nicht nur vereinfachen sondern auch langfristig pflegbar halten. Also Kommentare, vielleicht eine Kategorie-Zuordnung usw.

Aber eben von Hause aus Sachen für "unsinnig/schlecht" erklären wäre sicher falsch für YaCy was ja eben offen sein will. Ich bin mir ja auch immer wieder überlegen ob ich überhaupt normale Sexseiten, usw. usf. Filtern soll wie viele das tun. Selbst wenn man damit Unmoralisches und Undgewolltes bekämpft, ist die komplette, ungeschränkte, und totale Freiheit von Information nicht ein höheres Gut, welches über noch so begründbare moralische und ethische Überlegung zu stellen ist?
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Müllhalden für Harvester

Beitragvon bluumi » Do Nov 13, 2008 5:24 pm

Low012 hat geschrieben:Wie hast du denn die Seite gefunden? Wer weiß, wieviel Seiten von der Sorte es noch gibt!?

Ich bin Deinem Link gefolgt, weil mich das Thema Email-Crawler interessiert hat. Und beim lesen des iX Beitrags hab ich viel gelernt :P
Dann habe ich Deinen Google-Suchresultate Link angesehen und war "schockiert" wieviele Treffer es hat, und da fiel mir ein Link auf, welcher nicht auf diese Domains verweist, sondern in ein Forum welchesECHT ist :-D Und da hat der Wonne.de Author geschrieben, dass er möchte dass er besucht wird von solchen Harvestern :-D - Da konnte ich nicht wiederstehen udn hab die Seite besucht :geek:
Zuletzt geändert von bluumi am Do Nov 13, 2008 5:31 pm, insgesamt 1-mal geändert.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Müllhalden für Harvester

Beitragvon bluumi » Do Nov 13, 2008 5:29 pm

Phiber hat geschrieben:Aber eben von Hause aus Sachen für "unsinnig/schlecht" erklären wäre sicher falsch
überhaupt normale Sexseiten, usw. usf. Filtern soll wie viele das tun


Also ich filter keine SexSeiten :) ... zumal ich offen dazu stehen kann, dass ich auch selbst welche besucht habe :mrgreen: Aber das hat mit Moral zu tun und nichts mit Sinnlos :)
Aber wenn Du 10 Domains findest, auf welchen wirklich nur computergenerierte Satzkonstrukte stehen, dann sehe ich keinen Wert.
Aufgehängte Wurst in Reih' und Glied, ist ein Anblick den man gerne sieht. Möchtest du 'ne dicke Hose, iss Frühstücksfleisch aus der Dose. Alles hat ein Ende nur die Wurst hat zwei, doch wie viel Ecken hat dann der Wurstebrei?

Jedenfalls fände ich es schade, wenn jemand auf diese Seite stiesse beim suchen durch Yacy :-D
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Müllhalden für Harvester

Beitragvon Low012 » Do Nov 13, 2008 6:38 pm

Low012 hat geschrieben:denn zumindest für mich sind diese Seiten wertlos.

Die Betonung liegt hier ganz klar auf "mich". Ich will niemandem etwas vorschreiben und darum geht es bei YaCy ja auch, dass jeder mit seinem Peer machen kann, was er will, aber nicht dem Netz etwas vorschreiben kann. Was für den einen uninteressant oder störend ist, benötigt vielleicht jemand anderes. Wenn jemand Sexseiten suchen möchte, kann er das von mir aus gerne tun, ich filtere da allerdings auf meinem Peer allerhand raus, schon alleine, weil ich die Adresse zu meinem Peer in meiner E-Mail-Signatur habe. Aber jeder soll das von mir aus machen, wie er das mag! Von daher würde ich auch niemals dem Installationspaket irgendwelche Blacklists beilegen wollen, außer es hätte technische Gründe, würde aber die inhaltliche Erfassung von Texten nicht stören (z.B. wenn es beim Doublettencheck was bringen würde).

Etwas OT: Blacklisten kann man ja auch gut getrennt vom Installationspaket verteilen. Ich habe ja letztens schon die Möglichkeit eingebaut, eine XML-Datei von einem Peer herunter zu laden, wo einzelne gesharte Blacklists getrennt und mit Namen, aber ohne "Wirkungsbereich" (Proxy, DHT etc.) aufgeführt sind. (Wenn man den Link weiß. Ich weiß ihn aus dem Kopf aber eben selbst nicht.) Ich hoffe, das bald auch für den Import nutzen zu können und dann natürlich auch z.B. Kommentarfelder einfügen zu können, wo man besser erklären kann, wofür eine Liste gut ist und in welchen Fällen eventuell sogar schädlich. Außerdem habe ich auch noch Ideen, wie z.B. ein automatisches Abgleichen der eigenenen Blacklisten mit denen anderer. Wenn mehrere Leute, die sich vertrauen, das nutzen würden und von den jeweils anderen die Einträge für eine bestimmte Liste übernehmen, die sie noch nicht haben, könnte man schön gemeinsam eine Liste pflegen. Naja, so viele Ideen, so wenig Zeit...
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Müllhalden für Harvester

Beitragvon Low012 » Do Mär 05, 2009 11:26 am

Nochmal das leidige Thema... Es gibt noch mehr Seiten, die völlig sinnlose Informationen anbieten, um Harverster mit Müll zu füttern. Hier ein Beispiel: http://www.witold.ch/email/

Bleibt nur hoffen, dass da nicht zufällig auch gültige Emailadressen erzeugt werden. :shock: Dummerwiese rennt YaCy da auch rein und sammelt fleißig Müll, weil es mal wieder keine robots.txt gibt, die es davon abhalten könnte. Netterweise hat der Webmaster solche Müllseiten unter mehreren (allen?) von ihm betreuten Domains eingerichtet (immer in /email/). Auf http://www.witold.ch/ sind einige betroffene Domains aufgelistet.

Ich werde wohl demnächst auch für diesen Fall eine Blacklist erstellen, aber das ist auf Dauer ja auch nicht praktikabel. Schön wäre es, solche Seiten automatisch erkennen zu können. Ich würde meinen Peer gern frei von solchem Müll halten...
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Müllhalden für Harvester

Beitragvon Orbiter » Do Mär 05, 2009 12:05 pm

zum Glück ist es immer die gleiche Adresse, das sollte YaCy nur ein mal laden.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Müllhalden für Harvester

Beitragvon thq » Do Mär 05, 2009 1:08 pm

Vielleicht sollten wir für solche Domains eine Blacklist im SVN mit aufnehmen. Dazu eine Textdatei wo kurz erklärt wird warum dies und das geblockt wird.

Oder hier im Forum ein Thread erstellen, der angepinnt wird, wo man solche URLs melden kann.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Müllhalden für Harvester

Beitragvon Low012 » Do Mär 05, 2009 1:27 pm

Orbiter hat geschrieben:zum Glück ist es immer die gleiche Adresse, das sollte YaCy nur ein mal laden.

Auf der Seite sind aber unter den Emailadressen noch (zufällig erzeugte?) Links, die auch wieder auf solche Müllseiten zeigen. Trotzdem lässt sich das natürlich leicht blocken, da immer das /email/ im Pfad ist.

thq hat geschrieben:Vielleicht sollten wir für solche Domains eine Blacklist im SVN mit aufnehmen. Dazu eine Textdatei wo kurz erklärt wird warum dies und das geblockt wird.

Ich weiß nicht, ob das gut ankommt, wenn wir sowas ins SVN aufnehmen. Auch wenn so eine Blacklist nicht standardmäßig eingeschaltet ist, könnte das als Bevormundung gedeutet werden. Zentral nützliche Listen oder Links (z.B. um sie gezielt bei einem Peer runter zu laden, der immer erreichbar ist) darauf zu sammeln, um eine gute Übersicht zu erhalten, was für Listen es gibt, würde ich aber nicht schlecht finden. Wir hatten (haben?) ja eine Wiki-Seite, die das leisten sollte. Leider hat kurz nachdem das eingerichtet war jemand aus dem Forum hier etwas Ärger bekommen, weil jemand anderes nicht damit einverstanden war, dass er auf einer öffentlich zugänglichen Liste drauf war. Bei den Beschreibungen und Namen der Listen müsste daher auf jeden Fall auf möglichst neutrale Formulierungen geachtet werden.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Müllhalden für Harvester

Beitragvon thq » Do Mär 05, 2009 1:54 pm

Die Blacklist muss/sollte ja auch nicht böse_seiten heißen sondern eher nicht_gut_für_yacy.

Deswegen habe ich das hier mit dem Forum geschrieben, hier könnte jeder URLs rein schreiben die aus irgendeinen Grund _problematisch_für_YaCy_ sind. So könnte dann jeder der möchte seine Blackliste selbst erweitern.

Es sollte aber auch immer dazu geschrieben werden was mit der URL nicht stimmt.

Und sollte sich der ein oder andere es wünschen gelöscht zu werden, wird er halt gelöscht.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Müllhalden für Harvester

Beitragvon Orbiter » Do Mär 05, 2009 4:16 pm

kategorien für 'schlechte' URLs wären wirklich notwendig, diese hier würde ich mal 'honeypot' nennen. Ist ja ein üblicher Begriff für deratige Konstruktionen. Bei anderen URL-Kategorien gibts eher Streit, ob das denn derartig gebranntmarkt werden darf. Viele Leute haben ja auch shops in ihren Blacklisten; zurecht für gewisse Anwendungsfälle, aber die Betreiber würden sich ebenfalls zurecht gegen eine Brandmarkung als 'schlechte URL' wehren wollen. Wir können hier nicht 'Ethik-Komission' spielen, müssen uns und usere Technologie aber auch selber schützen dürfen.

Ein Publizieren von Linklisten könnte man als Form der freien Meinungsäusserung ansehen, wenn es aber eine technische Grundlage hat (beigelegt in Software) ist es eher wie eine Aufforderung. Du darfst sagen 'Ich finde Demokratie doof', aber du darfst nicht sagen 'du sollst dich gegen die Demokratie wehren'. Irgendwie ähnlich ist es dann doch mit den Links. Ich denke, so lange die Link-Listen in Peers zum sharing bereit stehen ist es ok, aber sie im Release beizulegen ist kritisch. Zumal _ich_ ja dann entscheiden muss, was rein kommt, denn ich publiziere das Release ja. Ihr kennt da meine Meinung: keine Zensur. Keine Default-Blacklist.

Aber man könnte beim Crawl-Start eine Warnung hin machen, und schreiben das es technische Fallen gibt, die man mit einer Blacklist ein wenig umschiffen kann, und auch wo es solche Blacklisten gibt: bei Peer-Ownern, die das hier oder im Wiki bekannt machen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Müllhalden für Harvester

Beitragvon thq » Do Mär 05, 2009 4:44 pm

Ich meinte damit auch keine komplett Sperrung einer Domain, sondern gezielt die URLs die wirklich unwichtig sind weil man sich z.B. erst anmelden muss, solche URLs kennt YaCy viele weil das z.B. auf jeder Wiki-Seite vorkommt. Auch die diff-Seiten eines Wiki-Artikels sind unwichtig...

Oder Archive von Blog-Artikeln, warum sollte einer damit Probleme habe wenn der aktuelle Blog immer noch indexiert wird.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Müllhalden für Harvester

Beitragvon Orbiter » Do Mär 05, 2009 5:08 pm

bei den diff-Seiten hast du recht, aber das ist ja auch host-unabhängig. Zum gleichen Thema gehören auch die session-IDs, zu denen wir immer noch nix haben. Aber das ist hier OT.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron