Yacy Erweiterung: LINK UND IP-Adressen speichern mit histori

Ideen und Vorschläge sind willkommen.

Yacy Erweiterung: LINK UND IP-Adressen speichern mit histori

Beitragvon konstantinn » Di Jul 28, 2009 2:09 pm

Hallo zusammen,

aufgrund der aktuellen DNS-Sperren Diskussion, möchte ich einen Vorschlag machen.

1) Die IP-Adressen sollen zusammen mit den LINKS gespeichert werden. Ausnahme: DYNDNS - Adressen soweit bekannt oder möglich.
2) Bei einem Recrawl, wo sich die aufgelöste ip-Adresse von vorherigen crawl unterscheidet, soll die alte ip gespeichert und die neue hinzugefügt werden (historie).
3) Mit einem besonderen Suchmodus (z.B. "DNS: http://www.adresse.de") soll bei der suche nach einer webadresse alle bekannten ip-adressen ausgegeben werden.

Dadurch würde yacy einen weiteren Beitrag zur objektiven Darstellung des Internets bieten. Jeder kann dann selbst nachvollziehen, wann und wohin sich die ip-Adressen verändert haben.

Viel Spaß beim Diskutieren und vor allem an die Programmierer: beim umsetzen.

Gruße
Konstantin

PS: Habe eine Suchmaschine die mom. ca. 12 mio. links beinhaltet.
konstantinn
 
Beiträge: 3
Registriert: Di Jul 28, 2009 1:50 pm

Re: Yacy Erweiterung: LINK UND IP-Adressen speichern mit histori

Beitragvon Orbiter » Di Jul 28, 2009 3:21 pm

Ich habe tatsächlich in den letzten Tagen über eine Erweiterung unseres DNS-Caches und dessen Funktion nachgedacht. Dabei ging es mir aber vor allem um ein Ausweichen auf frei verwendbare DNS Server als Alternative zum DNS Server des Providers.
http://www.ccc.de/censorship/dns-howto/
gibt dafür eine Liste von Servern an. Um die benutzen zu können muss man aber seine Netzwerkeinstellungen bearbeiten. Ich würde es aber gar nicht schlecht finden, wenn YaCy mit Hausmitteln die Fähigkeit hätte, spezielle DNS Server ansprechen zu können. Dazu gibts eine schöne Library
http://www.dnsjava.org/
Da ist dann auch ein DNS-Cache drin, den es zwar auch innerhalb von Java gibt, aber im Kontext mit Concurrency-Themen nicht gut funktuioniert, weil das Ding synchronisiert ist und man keine Daten aus dem Cache bekommt wenn ein anderer Thread Netz-IO macht. Daher haben wir einen eigenen Cache. Mit dnsjava könnten wir es aber auch probieren, und dann die Liste des CCC alternierend anwenden.

Konkret zu deinen Vorschlägen: man muss das DNS-Mapping nicht im Kontext zu einem Crawl sehen, sondern kann das auch unabhängig davon. Aber was wir noch nicht haben ist eine permanente Speicherung der IPs. Könnte ich aber angehen, das ganze ist aber sehr knifflig weil nicht klar ist wann eine IP aus diesem Cache als veraltet gelten soll. Aber man könnte dem Ziel näher kommen, den DNS des Providers ganz umgehen zu können. Es sollte aber jedem klar sein, dass damit nicht unbedingt eine Sperre umgangen werden kann, weil man ja beim Zugriff immer noch überdas gateway des providers mit der gewünschten IP geroutet werden muss.

Warum eine IP-Historie sinnvoll ist habe ich noch nicht herauslesen können. Ich finde es ausreichend wenn man die letzte IP kennt.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Yacy Erweiterung: LINK UND IP-Adressen speichern mit histori

Beitragvon MikeS » Di Jul 28, 2009 3:59 pm

Bitte bedenken, daß viele große Webseiten aus Load-Balancing Gründen mehr als eine IP-Adresse haben. DNS gibt dann entweder per Round-Robin oder per Zufall eine davon zurück. Zumindest bei einer einfachen Namensauflösung. Wie das aussieht, wenn man Low-Level den ganzen DNS-Record holt, weiß ich nicht.

Bei großen Sites wird sich die IP-Adresse also "scheinbar" sehr oft ändern.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: Yacy Erweiterung: LINK UND IP-Adressen speichern mit histori

Beitragvon konstantinn » Di Jul 28, 2009 5:34 pm

@Orbiter: Du hast recht: Wenn auf ip-Ebene bereits umgeroutet wird.... ok... pech gehabt.

Dabei hilft die Historienfunktion:

1) Wenn für einen DNS-Eintrag ein "Zwangsumzug" auf eine neue IP-Adresse vorgenommen wurde, ist die aktuelle ip-Adresse nicht interessant für mich, sondern die, die in der Historie davor verwendet wurde oder die noch davor. z.B. 5 Jahre lang hat es keine Änderung in der IP-Adresse gegeben, aber seit kurzem ist eine neue IP-Adresse eingetragen, dann ist es ein Hinweis, dass vielleicht die alte ip-Adresse zur richtigen Webseite führen wird usw.
2) Wenn andere Suchmaschinen , d.h. andere Peers die über andere Provider hereinkommen und auch einen anderen DNS-Server haben (z.B. Ausland) und eine andere Ip-Adresse zurück erhalten, ist es ebenfalls ein Hinweis auf Manipulation des DNS-Datenbank.

@MIKES: Mit nslookup wird der ganze DNS-Record ausgelesen und angezeigt. Dort sind dann alle Adresse angegeben z.B. bei google.com

C:\>nslookup google.com
Server: dnscache.berlin.ccc.de
Address: 213.73.91.35

Nicht autorisierte Antwort:
Name: google.com
Addresses: 74.125.67.100, 74.125.127.100, 74.125.45.100

Gruß
Der Freiheitsliebende Konstantin
konstantinn
 
Beiträge: 3
Registriert: Di Jul 28, 2009 1:50 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron