Indizierung von Shares mit smb

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Indizierung von Shares mit smb

Beitragvon ictzug » Mo Dez 05, 2011 5:14 pm

Hallo Zusammen

Auf einem Windows und einem Linux Rechner habe ich YaCy v.1.0 von Ende November installiert. Ziel ist, die Shares von unserem Unternehmen zu indizieren. In der Eingangskonfiguration habe ich 'Intranet Indexierung' aktiviert und in der Netzwerkkonfiguration den 'Robinson Modus' mit der Option 'Privater Peer'. Die Indexierung von Webseiten funktioniert, abgesehen von einem Teil welcher mit Frames arbeitet.

Die Indexierung von Shares über smb:// oder file:// funktioniert hingegen nicht. Es beginnt damit, dass bei der Definition vom Crawler die URL smb://10.10.10.10/meineshares nicht aufgelöst werden kann. Rechts vom Eingabefeld dreht das Rädchen und hört nicht mehr auf. Wenn der Crawl gestartet wird, wird das root gescannt und das wars. Im Server Log habe ich die folgenden Einträge gefunden:

I 2011/12/05 16:50:47 LOADER No parser available in SMB crawler: 'no parser found' for URL smb://10.10.10.10/meineshares: parsing only metadata
I 2011/12/05 16:50:47 HTCACHE storing content of url smb://10.10.10.10/meineshares, 40 bytes
E 2011/12/05 16:50:47 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at D:\YaCy\htroot\api\getpageinfo_p.class: java.lang.NullPointerException:null
java.lang.reflect.InvocationTargetException
W 2011/12/05 16:50:47 FILEHANDLER Unexpected error while processing query.
Session: Session_10.10.178.164:51598#0_GET /api/getpageinfo_p.xml?actions=title,robots&url=smb://10.10.10.10/meineshares HTTP/1.1
Query: /api/getpageinfo_p.xml

Der Java Prozess javaw.exe läuft unter dem Domain User welche die notwendigen Zugriffe auf diese Shares besitzt. Beim Netzwerkscan findet YaCy smb://10.10.10.10 und meldet Access - 'Empty'. Das verstehe ich noch, wenn ich ihm jedoch noch den Pfad \meineshares mitgebe, sollte es doch klappen. Die Shares liegen auf einem Windows Server und sind normalen Freigaben, Authentifizierung über AD mit Domain User. Was gibt es noch zu sagen? Für den Internet Zugang setzen wir ein Proxy Script ein, definiert im IE als 'Automatisches Proxyscript'. Ich habe auch versucht, die IP vom Proxy Server direkt zu verwenden. Denn bei YaCy funktioniert die System Aktualisierung auch nicht, eine externe URL wird bei der Crawl Definition erkannt (grüner Haken) kann aber anschliessend nicht gecrawlt werden. Habe meinen eigenen externen Webserver versucht, ohne bremsendes robots.txt.

Folgende Fragen:
- Wie können die Probleme beim crawlen von Shares über smb:// gelöst werden, welche Parameter muss man dem Crawler mitgeben?
- Wie können die Probleme mit der Systemaktualisierung und dem Crawlen von externen URLs gelöst werden?
- Muss man YaCy noch Proxy Einstellungen und Routing vom Netzwerk bekannt geben?

Eine Anleitung zum Crawlen von Shares habe ich im Forum oder Wiki gefunden, bin mir nicht mehr sicher. Das hat leider nicht zum Erfolg geführt. All Versuche und Tests habe ich unter Windows und Linux durchgeführt. Aufgrund der SMB Zugriffe habe ich intensiver mit Windows getestet.

Ich bin sehr interessiert an YaCy und es würde mich freuen, wenn ich Auskunft erhalte, was ich falsch gemacht habe oder wo es klemmen könnte.

Besten Dank und Gruss

ictzug
ictzug
 
Beiträge: 4
Registriert: Mo Dez 05, 2011 4:27 pm

Re: Indizierung von Shares mit smb

Beitragvon Orbiter » Mo Dez 05, 2011 6:25 pm

ictzug hat geschrieben:die URL smb://10.10.10.10/meineshares nicht aufgelöst werden kann. Rechts vom Eingabefeld dreht das Rädchen und hört nicht mehr auf.

dann kann dort diese Datei oder das Verzeichnis auch schon nicht geladen werden. Hast du statt
smb://10.10.10.10/meineshares
mal
smb://10.10.10.10/meineshares/
probiert?
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Indizierung von Shares mit smb

Beitragvon ictzug » Di Dez 06, 2011 11:31 am

Hallo Orbiter

Nein, bis anhin hatte ich das noch nicht probiert. Es funktioniert aber auch nicht. Folgendes habe ich herausgefunden, wenn ich als URL
10.10.10.10/meineshares
cifs://10.10.10.10/meineshares
http://10.10.10.10/meineshares

verwende, erscheint der grüne Haken bei der Crawler Definition. Die Crawls funktionieren anschliessend aber nicht, IO Error. Die richtige URL smb://10.10.10.10/meineshares resp. smb://10.10.10.10/meineshares/ kann weiterhin bereits bei der Crawler Definition nicht aufgelöst werden.

Gruss ictzug
ictzug
 
Beiträge: 4
Registriert: Mo Dez 05, 2011 4:27 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron