YAcy directory search?

Ereignisse, Vorschläge und Aktionen

YAcy directory search?

Beitragvon liebel-lab » Fr Nov 21, 2008 3:26 pm

..und noch eine Frage:
Wir haben hier einen server mit ca 45.000pdfs in einer directory structure...yacy indizierung möglich? (auch ohne dass die files verlinked sind? )
das durchsuchen grosser mengen daten welche "nur" in filestrutucren vorliegen und ständig verändert werden (recrawl via "last edit?!")...wird ein echt heisses thema hier

chance fuer yacy?
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: YAcy directory search?

Beitragvon Orbiter » Fr Nov 21, 2008 3:42 pm

kein Problem!
Wenn die Dinger mit einem Apache gehostet sind, kann man dem sagen er soll ein Verzeichnislisting machen. Das kann man auch explizit sperren, und ich glaube das ist nach eine Installation default. Muss man dann auf machen. Daran kann sich YaCy in einem Crawl entlanghangeln, und YaCy weiss sogar wie man Directorylistings erkennt und auch nur Seiten finden kann die ein Dirlisting haben.
Beispielsuche nach mp3 und nur dirlistings als Ergebnis:
Code: Alles auswählen
http://yacy.dyndns.org:8000/yacysearch.html?query=mp3&indexof=on


alternativ kann auch statt Apache eine YaCy-Installation zum hosten der PDF genommen werden, YaCy macht ebenfalls dirlistings:
http://yacy.dyndns.org:8000/repository/
Dazu einfach die Dateien in HTDOCS/repository/ rein stellen oder dort verlinken. Dann das als Crawl start nehmen.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YAcy directory search?

Beitragvon liebel-lab » Mo Nov 24, 2008 1:19 pm

...danke schon mal fuer die tipps...folgender status (svn:0.615/05363 ):

starte ich mit "intranet-indexing" mit "crawl-start" ftp://xx.xx.xx.xx/folder1 (welcher erkannt wird, listing zulaesst und sowohl via http als auch ftp browsbar ist...
---------------------------------------------------------------------------------------------
There are 3 entries in the rejected-queue:
Initiator Executor URL Fail-Reason
itg-local itg-local ftp://xx.xx.xx.xx/folder1 null - in worker
itg-local itg-local ftp://xx.xx.xx.xx/folder1 null - in worker
itg-local itg-local ftp://xx.xx.xx.xx/folder1 null - in worker
---------------------------------------------------------------------------------------------

starte ich mit: "Search portal for your own web pages" "crawl-start" ftp://xx.xx.xx.xx/folder1
----------------------------------------------------------------------------------------------
Crawling of "ftp://xx.xx.xx.xx/folder1" failed. Reason: denied_(the host 'xx.xx.xx.xx' is local, but local addresses are not accepted)_domain=global
-----------------------------------------------------------------------------------------------



vermutlich stehe ich auf dem montagsschlauch?! :-)
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: YAcy directory search?

Beitragvon Orbiter » Mo Nov 24, 2008 1:42 pm

2. Fall: klar, kann nicht gehen, das geht nur für öffentliche Adressen.

1. Fall: kannst du mal den Zugriff per http probieren? Vielleicht ist ja was am ftp-client kaputt.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YAcy directory search?

Beitragvon Orbiter » Fr Jan 30, 2009 2:47 pm

kleines Update hier: ich hatte das Problem das ich auf einem Windows Rechner ein geshartes Verzeichnis mit Dokumenten Indexieren wollte. Dazu wollte ich einen symbolic link von dem per SMB-gesharten Verzeichnis nach DATA/HTDOCS/repository machen. Das ging aber nicht, weil Windows keine symbolic links kennt. Was blieb mir also übrig: den repository-Pfad konfigurierbar machen. Das ist jetzt in SVN 5538 drin.

Das heisst hier: wenn du die Daten irgendwo im Netz hast, kannst du sie nun durch einfaches Mappen mit der Property 'repositoryPath' auf diesen Pfad nach http://localhost:8080/repository/ abbilden, und dann mit einer Intranet-Indexierung mit dem Default-Startpunkt (eben diese URL in diesem Satz) erfassen. Funktioniert hier toll.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YAcy directory search?

Beitragvon liebel-lab » Fr Jan 30, 2009 7:08 pm

...klingt super danke...werde das am montag gleich testen.
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron