Das Internet herunterladen und archivieren, mit YaCy

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Das Internet herunterladen und archivieren, mit YaCy

Beitragvon ribbon » Fr Okt 24, 2008 5:30 pm

Die Idee, dass man Kopien der Webseiten durch YaCy herunterlädt (z.B. für die Snippets) wurde ja schonmal hier im Forum angesprochen und auch dass man sie in YaCy speichert.
Nun gibt es ja die elektronische Ablieferungspflicht bei der Bibliothek, ich dachte es bezieht sich auf Bücher und Diplomarbeiten, aber dank der Bild-Zeitung aufbereitung wird deutlich, dass es auch für jede Webseite gilt.
Wenn eine Webseite upgedatet wird, muss dann auch eine neue Lieferung an die Notionalbibliothek erfolgen?

http://www.bild.de/BILD/digital/technik ... efern.html

Daher die Frage an YaCy wie weit die Programmierung geplant ist, Webseiten herunterzuladen und auch einzulagern, damit man wie bei Google auch Seiten aus einem Cache laden kann.

Da man nicht die ganzen CSS Pfade mit laden und speichern kann in einem Zip, würde ich einfach vorschlagen, die Webseite in ein PDF zu drucken und dann hat man pro Web-Url eine PDF Datei, statt ein Zip mit 30 Icons und einem html.
Gibt ja ghostsrcipt für PDF oder bestimmt auch was in java?

Die Frage ist nun, wenn man pro Url eine PDF Datei hat, wie man die stored.
Ich weiss gar nicht ob das gut ist, die yacy nodes damit vollzupusten, und das Offsystem.sf.net wurde ja auch schonmal angesprochen hier im Board.

Man könnte die Web-url mit einer OFF-url im yacy DHT verlinken und dann durch OFF das PDF laden lassen.

Wäre das von den Schnittstellen her ein gangbarer Weg, oder wäre es besser im YaCy DHT aufgehoben, dort eine PDF Datei zu storen (oder eine zip).

Soll YaCy überhaupt eine Kopie des ganzen Internets herunterladen? und wenn ja, im yacy oder off DHT einlagern?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Das Internet herunterladen und archivieren, mit YaCy

Beitragvon Nathan » Sa Okt 25, 2008 5:22 am

Also erstmal sind es "nur" Seiten die nicht privat sind, die man abliefern muß. Wobei ich mich ehrlich gesagt auch frage, ob die jede kleine Änderung haben wollen. Bei Newsseiten kommt dann ganz schön schnell was zusammen. Die bräuchten dann ganz schön viel Speicherplatz.
Über eine Speicherfunktion würde ich mich auch freuen, aber rein nur zu Archivierungszwecke für mich selbst. Wenn wir selbst die archivierten Seiten anbieten, kann es durchaus zu Klagen kommen, wie es bei Google schon öfters der Fall war. Nur wir haben nicht die Mittel und sicher auch nicht die Lust dazu sowas vor Gericht auszustreiten. Deswegen bin ich für so eine Funktion, aber dagegen sie öffentlich für jeden zu machen, nichtmal als Option. Wer es unbedingt öffentlich machen will, soll es sich selbst bauen und die Verantwortung dafür tragen.
Nathan
 
Beiträge: 38
Registriert: Mi Jun 27, 2007 6:26 pm

Re: Das Internet herunterladen und archivieren, mit YaCy

Beitragvon Lilirasa » Mo Okt 27, 2008 11:40 am

Nur so nebenbei, hat Deutschland nicht ganz andere Probleme, als 115 Millionen Euro jährlich in ein solch unsinniges Projekt zu buttern?!

Nobel geht die Welt zugrunde... :mrgreen:
Lilirasa
 
Beiträge: 71
Registriert: So Sep 14, 2008 11:28 am

Re: Das Internet herunterladen und archivieren, mit YaCy

Beitragvon Orbiter » Do Nov 06, 2008 12:20 pm

wir könnten das ja mal zu einem 'Stresstest' für den neuen HTCACHE ausbauen. Dazu fällt mir ein das man den jetzt so gestalten könnte, das man einfach die Caches zusammenkopieren kann, um einen 'großen' zu bekommen. Dazu muss ich aber die Namen im Cache anders gestalten. Aber ansonsten müsste das gehen.

Wenn sich hier "internet-Deutschland Downloader" zusammentuen wollen: das müsste man organisieren, indem man eine Domain-Liste macht (will das einer organisieren?), diese splittet und eben Teile daraus den 'Deutschland-Downloader' zuteilt. Was dann an Crawlen zusammen kommt müsste man im HTCache mergen können.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Das Internet herunterladen und archivieren, mit YaCy

Beitragvon ribbon » Do Nov 06, 2008 10:41 pm

wollte einmal wissen, wie oder in welchem DHT man es idealerweise speichert, also in YaCy und nicht in einem OFFsystem.
die Speicherung erfolgt dann wie? als PDF oder als html only?
Einen großen Cache meint, dass dieser aber decentral ist? Wieso internet Deutschland? dachte das ganze weltweit? und wieso muss man eine Liste machen? es ist doch ein crawler drin.
eine Webseite aus einem Cache laden ist eine Variante, kann man nicht auch Webseiten durch einen anderen peer laden freigeben, so dass der remote peer es als crawl anfrage versteht, die seite aber auch als content weiterleitet?
Webseiten aus einem Cache muss man ja nur laden, wenn die webseite wieder weg ist. Laden durch einen Peer würde aber viele firewalls umgehen und so verfügbar machen.
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast