Dateien indexieren funktioniert nicht - Denkfehler?

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Dateien indexieren funktioniert nicht - Denkfehler?

Beitragvon Michael_MPI » Mo Nov 19, 2012 5:09 pm

Moin,

ich versuche schon seit einiger Zeit erfolglos Dateien auf verschiedene Art zu indexieren. Yacy läuft mittlerweile in Version 1.2/9008 auf einem ubuntu Server 12.04.

1) smb-share: also crawl über smb://username:pwd@server/folder starten, als Netzwerk ist dabei allip eingestellt
Ergebnis: nichts, crawler rödelt aber ne Weile. im log findet man "StackTrace host too short:...", "BLOCKINGTHREAD Internal Error in serverInstantThread.job: null", "BLOCKINGTHREAD shutting down thread 'java.lang.reflect.Method.storeDocumentIndex.7'", "StackTrace String index out of range: -1" oder "BLOCKINGTHREAD Runtime Error in serverInstantThread.job, thread 'java.lang.reflect.Method.storeDocumentIndex.7': null"

2) gemounteter ordner: smb-share meinetwegen unter /mnt/documents mounten, die Eingangskonfiguration auf "intranet" stellen unter repository /mnt/documents eintragen und den crawler auf das repository loslassen.
Ergebnis: "scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY 'HTTP/1.1 404 File not Found' for URL..."

3) lokale Dateien: ein paar der Dateien aus dem smb-share in einen lokalen ordner kopieren und den crawler über file:// darauf loslassen
Ergebnis: "unresolved pattern"

Gibts hier noch einen oder mehrere Bugs oder mach ich hier grundlegend etwas falsch?

Wenn ich eine Instanz unter Windows 7 aufsetze, klappt zumindest das indexieren lokaler Dateien...
Michael_MPI
 
Beiträge: 16
Registriert: Di Mai 29, 2012 9:57 am

Re: Dateien indexieren funktioniert nicht - Denkfehler?

Beitragvon Orbiter » Mo Nov 19, 2012 5:29 pm

hm bin mir nicht sicher ob smb-shares mit login-info geht, das ist ja noch so eine Baustelle. Ohne Auth sollte es gehen. Hast du statt dessen mal den Network Scanner ausprobiert? Der lief ja nun schon mehrmals bei einem CCC fürs Filesharing ganz gut...
File-Pfade müssen von der Syntax her richtig sein, das ist 'file://' + absoluter Pfad. Also dann file:///home/xxx oder file://c:\\xxx .. bitte dreifachslash und doppelbackslash beachten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dateien indexieren funktioniert nicht - Denkfehler?

Beitragvon Michael_MPI » Di Nov 20, 2012 12:48 pm

Hmm der Networkscanner bringt keine Ergebnisse, im LOG steht ständig "HTTPDFileHandler access blocked, clientIP=...". Besteht da ein Zusammenhang?

Auf der Windows-Instanz bringt der Networkscanner Ergebnisse, wenn ich den samba-share dem crawler übergebe rödelt er eine Weile, aber es kommen Fehler bzw Warnings:

W 2012/11/20 12:44:32 StackTrace host too short: 'smb', url = http://...
java.net.MalformedURLException: host too short: 'smb', url =...
at net.yacy.cora.document.MultiProtocolURI.<init>(MultiProtocolURI.java:187)
at net.yacy.kelondro.data.meta.DigestURI.<init>(DigestURI.java:119)
at net.yacy.data.BookmarksDB$Bookmark.<init>(BookmarksDB.java:520)
at net.yacy.data.BookmarksDB.getBookmark(BookmarksDB.java:160)
at net.yacy.data.BookmarksDB.removeBookmark(BookmarksDB.java:174)
at net.yacy.data.BookmarksDB$Bookmark.<init>(BookmarksDB.java:512)
at net.yacy.data.BookmarksDB$Bookmark.<init>(BookmarksDB.java:516)
at net.yacy.data.BookmarksDB.createBookmark(BookmarksDB.java:130)
at net.yacy.search.Switchboard.stackUrl(Switchboard.java:2789)
at net.yacy.search.Switchboard$3.run(Switchboard.java:2705)

W 2012/11/20 12:44:32 StackTrace host too short: 'smb', url = http://...
java.net.MalformedURLException: host too short: 'smb', url = ...
at net.yacy.cora.document.MultiProtocolURI.<init>(MultiProtocolURI.java:187)
at net.yacy.kelondro.data.meta.DigestURI.<init>(DigestURI.java:119)
at net.yacy.data.BookmarksDB$Bookmark.<init>(BookmarksDB.java:520)
at net.yacy.data.BookmarksDB.getBookmark(BookmarksDB.java:160)
at net.yacy.data.BookmarksDB$Bookmark.<init>(BookmarksDB.java:502)
at net.yacy.data.BookmarksDB$Bookmark.<init>(BookmarksDB.java:516)
at net.yacy.data.BookmarksDB.createBookmark(BookmarksDB.java:130)
at net.yacy.search.Switchboard.stackUrl(Switchboard.java:2789)
at net.yacy.search.Switchboard$3.run(Switchboard.java:2705)
Michael_MPI
 
Beiträge: 16
Registriert: Di Mai 29, 2012 9:57 am

Re: Dateien indexieren funktioniert nicht - Denkfehler?

Beitragvon Michael_MPI » Fr Nov 23, 2012 1:57 pm

Test zu Syntax von Pfaden:

Egal ob ich einen crawl mit file:///home, file:///home/ oder auch file:///home/user starte, ich bekomme immer "-UNRESOLVED_PATTERN-"...

Code: Alles auswählen
E 2012/11/23 13:43:57 FILEHANDLER INTERNAL ERROR: java.lang.reflect.InvocationTargetException:null target exception at /usr/share/yacy/htroot/Crawler_p.class: ; java.awt.graphicsenv='sun.awt.X11GraphicsEnvironment'

I 2012/11/23 13:43:57 APICALL /Crawler_p.html?deleteold=on&crawlingDomMaxPages=10000&intention=&range=domain&indexMedia=on&recrawl=nodoubles&storeHTCache=on&sitemapURL=&collection=&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=file:///home/&bookmarkTitle=Index%20of%20file:///home/&mustnotmatch=&crawlingDomFilterDepth=1&crawlingDomFilterCheck=off&crawlingstart=Starte%20neuen%20Crawl&directDocByURL=off&crawlingDepth=99
Michael_MPI
 
Beiträge: 16
Registriert: Di Mai 29, 2012 9:57 am

Re: Dateien indexieren funktioniert nicht - Denkfehler?

Beitragvon Orbiter » Sa Nov 24, 2012 10:32 am

Hallo Michael, ich glaube da war ein Bug. Ich konnte das Problem nachstellen und fixen. Das hat sich in den letzten Wochen eingeschlichen als ich den Crawler erweitert habe.
Den Fix gibts als yacy_v1.2_20121124_9025 im auto-updater.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Dateien indexieren funktioniert nicht - Denkfehler?

Beitragvon Michael_MPI » Fr Dez 14, 2012 1:55 pm

So nach langer Zeit ne kurze Antwort:

Seit Version 9025 funktioniert das crawlen lokaler Order oder gemounteter Shares unter Windows und Linux.

Windows:
-Crawlstart mit file:///d:

Linux
-Crawlstart mit file:///mnt/documents

Yacy muss beim crawlen von Shares vom gleichen User ausgeführt werden, der die Shares auch gemountet hat. Bzw. bei ubuntu muss man beim Mounten die Option uid=yacy angeben da der User yacy bei der Installation via apt-get angelegt wird und yacy dann auch ausführt.

Insofern erstmal danke Orbiter!
Michael_MPI
 
Beiträge: 16
Registriert: Di Mai 29, 2012 9:57 am


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste