Anleitung für die Indizierung lokaler Dateien?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Anleitung für die Indizierung lokaler Dateien?

Beitragvon lieschen » Do Jun 10, 2010 12:43 pm

Hallo,

ich habe im deutschen und Englischen Forum und Wiki gesucht, aber ich finde leider keine verständliche Anleitung, wie man lokale Dateien indizieren kann.
Ich habe YaCy (yacy_v0.95_20100506_6857.tar.gz) auf Ubuntu installiert und möchte .pdf, .txt, und optional .jpg Dokumente, die sich alle unterhalb eines Verzeichnises befinden indizieren.
Ein netter Mensch auf dem Linuxtag hatte mit gestern erzählt, dass das ginge. Nur wie bringe ich den Crawler dazu sich alle Dateien mit bestimmten Filetypes anzusehen und nicht über Webseiten und Links zu kriechen?

Danke!
lieschen
 
Beiträge: 3
Registriert: Do Jun 10, 2010 12:19 pm

Re: Anleitung für die Indizierung lokaler Dateien?

Beitragvon Lotus » Do Jun 10, 2010 7:26 pm

lieschen hat geschrieben:Nur wie bringe ich den Crawler dazu sich alle Dateien mit bestimmten Filetypes anzusehen und nicht über Webseiten und Links zu kriechen?

Besteht das Problem darin, dass in diesem Unterordner auch andere Dateien liegen?
Das lässt sich durch den Crawlfilter einstellen. Das ist eine Regular Expression. Man könnte z.B. nur den Dokumenten-Root und die gewünschten Dateien erfassen. Bsp: *./|.*\.pdf|.*\.txt (nicht getestet)
Das erste für die Root-Verzeichnisse, 2 und 3 für die Endungen.
Ansonsten lässt sich das auch umgekehrt angehen, indem alles erfasst wird, und ein Filter bei der Suche angegeben wird (ebenfalls Regular Expression).


Oder verirrt sich der Crawler auf Webseiten?, was im Intranet-Modus nicht passieren sollte.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Anleitung für die Indizierung lokaler Dateien?

Beitragvon lieschen » Fr Jun 11, 2010 9:02 am

Das Problem besteht darin, dass nichts indiziert wird.

Ich muss in Index Creation > Crawl Start einen Starting Point angeben. Dort würde ich gerne ein Verzeichnis angeben. Allerdings muss ich mich zwischen URL, Sitemap und File entscheiden. Ich habe Versucht da meinen lokalen Pfad (z.B. /daten/test/ ) einzugeben, aber das hat nicht funktioniert. Vielleicht war ja auch nur das Format falsch, aber ich habe keine Hinweise gefunden wie es heissen müsste.

Ich habe keine Webseite, die auf meine Dokumente verweist, sie liegen einfach so im Filesystem herum. Ich hatte gehofft, dass der Crawler sich durch alle Unterordner hangeln könnte wenn ich ihm den obersten Ordner übergebe.

(Aber schon mal Danke für den Tipp mit dem Crawlfilter, das wäre sonst sicher mein nächstes Problem gewesen.)
lieschen
 
Beiträge: 3
Registriert: Do Jun 10, 2010 12:19 pm

Re: Anleitung für die Indizierung lokaler Dateien?

Beitragvon Lotus » Fr Jun 11, 2010 1:43 pm

Damit lokal indexiert werden kann, muss in den Intranet-Modus gewechselt werden.
Das geht unter Basic Configuration/Eingangskonfiguration unter /ConfigBasic.html
Da steht auch wie man dann dort rankommt, und die richtige URL wird bei Crawl Start schon eingetragen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Anleitung für die Indizierung lokaler Dateien?

Beitragvon lieschen » Fr Jun 11, 2010 3:05 pm

Das hatte ich schon gemacht. Ich habe auch ein Passwort für den admin account gesetzt, falls das was damit zu tun hat.

Was meinst Du mit "richtiger URL"? Woher soll Yacy wissen in welchem Verzeichnis meine Dateien sind? Das Verzeichnis muss ich ihm doch irgendwie geben.

Da der Crawler nichts findet, vermute ich, dass die URL, die bei mir erzeugt wurde, leider doch nicht richtig ist.

Es geht mir darum, das Verzeichnis /daten/test/ und alle seine Unterverzeichnisse zu crawlen, wie ich in meinem letzten Post geschrieben habe. Ich möchte den Crawler nicht zu einer URL schicken, da ich keine einzige Webseite habe, sondern nur einzelne Dateien ohne Links in einem Verzeichnis.
lieschen
 
Beiträge: 3
Registriert: Do Jun 10, 2010 12:19 pm

Re: Anleitung für die Indizierung lokaler Dateien?

Beitragvon Copro » Fr Jun 11, 2010 5:00 pm

Das Setzen des Admin Passworts hat mit dem Problem nichts zu tun - das soll nur einen Fremdzugriff auf Adminlevel auf Deinen YaCy Server verhindern.
Ich denke dass Du erst auf die SVN Version 6902 updaten musst - denn erst da wurde das lokale indexieren von Dateien eingeführt.
Auch die Auswahl Intranet in den Basiseinstellungen erläutert dann schon wie die Dateien durchsucht werden können:
Bild
Create a search portal for your intranet or web pages or your (shared) file system. URLs may be used with http/https/ftp and a local domain name or IP, or with an URL of the form file:///<path> or smb://<server>/<path>
Files may also be shared with the YaCy server, assign a path here: "DATA/HTDOCS/repository"
This path can be accessed at http://localhost:8080/repository. Use that path as crawl start point.


Ob es allerdings auch ohne Verwendung des Repository Verzeichnisses als "Share" bzw. "Freigabe" und dann crawlen dieses Verzeichnisses mit "http://localhost:8080/repository" als Startpunkt klappt bin ich gerade am Ausprobieren. Das kann vermutlich orbiter besser und ausführlicher beantworten.
Ich denke Du bist auf jeden Fall auf dem richtigen Weg und versuche einmal nach dem Update auf eine Version über 6902 einen Crawl mit "/daten/test/"

Alternativ versuche doch mal die zu durchsuchenden Dateien (falls diese auch öffentlich im Netzwerk zugreifbar sein dürfen) direkt in das "DATA/HTDOCS/repository" unter dem YaCy Programmordner zu kopieren. Dann einfach einen Crawl mit Startpunkt "http://localhost:8080/repository" starten.

Edit:
Mit der einfachen ersten Methode einfach die Dateien unter c:\Share zu indexieren findet er nur die Dateien in dem Ordner (ohne Unterordner / Rekursion) und meldet für jede Datei folgenden Fehler: denied_(the host 'c:\share' is global, but global addresses are not accepted)
Mit der zweiten Methode alles in das "DATA/HTDOCS/repository" zu kopieren und dann über den Startpunkt "http://localhost:8080/repository" zu indexieren klappt aber alles wie gewünscht.
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron