URL-Hash um Metadaten ergänzen

Ideen und Vorschläge sind willkommen.

URL-Hash um Metadaten ergänzen

Beitragvon PCA42 » Fr Jun 05, 2009 8:09 pm

In einigen Beiträgen sind jetzt Sachverhalte aufgetaucht, die es meiner Meinung nach sinnvoll machen, die bestehenden URLs mit bestimmten Metadaten zu ergänzen und ähnlich den RWIs auch über DHT zu verteilen.

Welche Metadaten könnten das sein?
Das sind sicherlich tausende Sachen interessant, die man zu einer URL ablegen kann. Das geht über Links, die auf diese Seite geführt haben, über die Klassifikation nach DDC bis hin zu Zugriffsbeschränkungen im Intranet. Oder auch direkt die Exif-Daten eines Bildes, mit welchen Crawl-Einstellungen der Link aufgenommen wurde oder ganz verrückt: auf welche Peer eine vollständige Kopie mit einem bestimmten Stand gehalten wird (Yacy als verteilte Wayback-Machine :o ).

Organisation der Daten?
Es sollten flexible Datenstrukturen vorhanden sein, die auch nachträgliche Anwendungsmöglichkeiten nicht ausschließen. Grundsätzlich kann hier nach dem URL-Hash erstmal die Klartext-URL abgelegt werden. Das alles als zweite Datenbank neben den RWI. Vielleicht kann dann auch hier eine performante Blob-Struktur aufgebaut werden (schneller Index zum Laden der URLs ;) ).
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: URL-Hash um Metadaten ergänzen

Beitragvon apfelmaennchen » Fr Jun 05, 2009 8:37 pm

Diese "zweite" Datenbank (BLOBHeap), die mit zum bisherigen Index identischen URL-Hashes arbeitet gibt es schon - die bookmarks...in der im Moment in Arbeit befindlichen Fassung dann auch noch mit einer dritte Datenbank für URL-Annotations (Metadaten). Wie wir das integrieren, sprich zusammenfassen müssen wir mal besprechen, hier bietet sich ja ggf. der Linuxtag oder das Grillfest in Karslruhe an. Ich möchte nur das Konzept erst mal ans Laufen bringen, bevor wir gleich alles in eine neue große URL-Datenbank werfen. Mehrere kleine Datenbanken sind ggf. performanter...und flexibler!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: URL-Hash um Metadaten ergänzen

Beitragvon Orbiter » Sa Jun 06, 2009 1:48 am

das ist der richtige Weg, auch schon um eine Trennung zwischen statischer URL-Information, die jeder mit Hilfe von URL-fetches nachvollziehen kann, und user-generated content die individuell generiert werden kann. Zu user-generated content muss man dann noch Zugriffsrechte beachten, diese Konzepte gibt es aber bereits (public/privat).
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron