Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Beitragvon unm » Mi Sep 07, 2016 9:13 am

Hallo zusammen,

ich versuche seit längerem die Yacy Suchmaschine als Enterprise Search Engine einzuführen.
Als Quellen, also Seiten die gecrawlt werden sollen und danach durchgesucht werden sollen, sollen das Intranet, die Netzlaufwerke und die hauseigene Wikipage dienen.
Bisher habe ich nur geschafft eine Intranet-Seite crawlen zu lassen - bei den anderen zwei "Quellen" bin ich leider bis jetzt erfolglos gewesen. :/ und ich weiss auch nicht wie ich da voran gehen soll oder was ich falsch mache..
Installiert habe ich die YaCy Version: 1.90/9000

Kann mich jemand bitte bei meinem Problem unterstützen, sodass ich endlich zu einem erfolgreichen Abschluss komme??

Vielen Dank im Voraus

MfG
UNM
unm
 
Beiträge: 2
Registriert: Mi Sep 07, 2016 8:59 am

Re: Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Beitragvon sixcooler » Mi Sep 07, 2016 10:02 pm

Hallo Umn,

damit Dir jemand helfen kann braucht es sicherlich etwas mehr infos:
- was ist der Unterschied der Quellen die nicht gecrawlt werden zu denen die es werden?
- gab es eine Fehlermeldung nach Anlegen des Crawlstarts?
- kann der User unter dem YaCy läuft von der Maschineauf dem es läuft z.B. mit wget auf die Quellen zugreifen?

Eine weitere Idee kann es sein für das Thema in Pro-Users nach Professioneller Hilfe zu fragen.

Cu, sixcooler.
sixcooler
 
Beiträge: 479
Registriert: Do Aug 14, 2008 5:22 pm

Re: Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Beitragvon unm » Do Sep 08, 2016 8:58 am

Hallo sixcooler,

vielen Dank für deine Antwort.

Also die Infos die ich ausgelassen habe..
* eine Intranetseite wird erfolgreich gecrawlt.
* was jedoch nicht geklappt hat war das Crawlen von Netzlaufwerken, und das Crawlen von kennwortgesicherten Seiten (Wikipage,..)

ich möchte gerne Netzlaufwerke crawlen lassen die im FileServer liegen auf die jeder Mitarbeiter zugreifen kann, jedoch kann ich von der Maschine aus auf der YaCy installiert ist auf diese besagten Netzlaufwerke nicht zugreifen.
und ich weiss auch nicht wie ich auf diese Quellen mit wget zugreifen kann.

wenn ich versuche das Wiki crawlen zu lassen (xwiki/industrialwiki)
beim Versuch diese Seite crawlen zu lassen erscheint eine Fehlermeldung:

Crawling von "http://dewiki.de-gmbh.com/industrialwiki/bin/view/Main/?srid=RZzImYK2" schlug fehl. Grund: scraper cannot load URL: java.io.IOException: REJECTED EMPTY RESPONSE BODY 'HTTP/1.1 401 Unauthorized' for URL 'http://dewiki.de-gmbh.com/industrialwiki/bin/login/XWiki/XWikiLogin;jsessionid=A23A8324D6574EE32490BE71B9511681?srid=RZzImYK2&xredirect=/industrialwiki/bin/view/Main/?srid=RZzImYK2'$/

hier liegt ein Authentifizierungsproblem vor..aber wie ich diese lösen kann weiss ich nicht..

und bin aus diesen Gründen auf Hife angewiesen.

Vielen Dank im Voraus.

MfG
UNM
unm
 
Beiträge: 2
Registriert: Mi Sep 07, 2016 8:59 am

Re: Schwierigkeiten mit Crawlen der Netzlaufwerke + Wikipage

Beitragvon sixcooler » Do Sep 08, 2016 8:06 pm

Hallo Umn,

was das crawlen mit authentisierung angeht muss ich leider schreiben das YaCy dieses nicht unterstützt: die Suchtreffer würden dann ja dem User präsentiert ohne sich authentifiziert zuhaben.
Aber evtl bietet das verwendete Wiki selber eine Opensearch-Schnittstelle, welche man unter /ConfigHeuristics_p.html einbinden kann?

Fileserver lassen sich je nach verwendetem Protokoll via smb://... oder file://... als crawlstart inidizieren.

Cu, sixcooler.
sixcooler
 
Beiträge: 479
Registriert: Do Aug 14, 2008 5:22 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 2 Gäste