Wie Intranet sinnvoll crawlen? Einstellungen?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon bs78 » Mo Mai 10, 2010 11:05 am

Hallo! Ich habe Yacy auf einem unabhängigen Ubuntu-System installiert. ... und dadurch die Optionen "Suchportal für Ihre eigene Internetseiten" & "Webportal" als Netzwerktyp gewählt.

Als Startpunkt-Url habe ich die https-Adresse unseres Firmen-Intranets angeben (mit dem Unterverzeichnis "dok").
"Auf Sub-Pfad beschränken" wurde als Filter gesetzt - damit keine anderen Pfade auf anderen höheren Ebenen geprüft werden.

In dem angegebenen Pfad sind viele Office.Dokumente enthalten, die durchs Yaca durchsuchbar gemacht werden sollen.

Leider wird der Scan nach nur kurzer Zeit beendet... mit vermutlich mäßigem Erfolg.

Was sind für Grundeinstellungen für die Prüfung eines Intranets sinnvoll (Web-Server liegt auf einer anderen Maschinen im Firmennetzwerk).

Besten Dank
Ralf
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon Orbiter » Mo Mai 10, 2010 11:58 am

Hallo Ralf,

ganz einfach, das geht deswegen nicht weil deine Wahl "Suchportal für Ihre eigene Internetseiten" sich auf Adressen im Internet beschränkt und dort keine Intranet-Seiten zuläßt.

Für das was du willst musst du unter /ConfigBasic.html die Einstellung "Intranet Indexing" anklicken. Dann sollte es gehen... und neu einen Crawl starten. Wenn das dann wieder scheitern sollte bitte unter /IndexCreateParserErrors_p.html schauen was da steht, das erklärt welche Seiten nicht geladen wurde und warum. Ggf. das dann hier posten.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon Low012 » Mo Mai 10, 2010 12:06 pm

Hallo, willkommen im Forum!

Orbiter hat ja inzwischen schon geantwortet, aber hier noch ein paar zusätzliche Punkte, die ich in der Zwischenzeit aufgeschrieben habe:

Was du tun könntest, um zu überprüfen, ob die Anzahl der Dokumente im Index halbwegs mit der Zahl der Dokumente im gecrawlten Verzeichnis übereinstimmt ist, auf http://localhost:8080/IndexControlURLs_p.html zu schauen. Dort sollte zu sehen sein, wieviele Dokumente YaCy im Index hat.

Falls diese Zahl erheblich vom erwarteten Wert abweicht, könntest du auf http://localhost:8080/ConfigParser.html nachsehen, ob die notwendigen Parser auch tatsächlich eingeschaltet sind.

Außerdem gibt es in YaCy eine Höchstgrenze für Dateien, die gecrawlt werden. Das soll verhindern, dass sich der Crawler im Internet an übergroßen Dateien festbeißt. Ich weiß nicht, ob die Einstellung für das Intranet automatisch angepasst wird. Du könntest auf http://localhost:8080/Settings_p.html?page=crawler überprüfen, ob die Dateigröße eventuell zu niedrig eingestellt ist. Ich glaube, die Standardeinstellung liegt bei 250kB.

Falls YaCy nach dem Crawlen neu gestartet wurde, können eventuelle Fehlermeldungen auch den Logdateien entnommen werden, die in $YACY_ORDNER/DATA/LOGS liegen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon bs78 » Mo Mai 10, 2010 12:36 pm

Vielen Dank für die schnellen und ausführlichen Antworten.

Vielleicht habe ich noch ein Verständnisproblem mit der Anwendungsfallauswahl.
Gewählt hatte ich zu Beginn "Intranet Indexierung", da die Indizierung unseres Firmen-Intranets vorgesehen ist.
Da aber jedoch die Beschreibung:
Erstellt ein Suchportal für Ihre Intranet Webseiten, oder Seiten, die unter DATA/HTDOCS/repository gespeichert und unter http://localhost:8080/repository erreichbar sind.

... lautet und Yacy aber auf einem anderen Host installiert ist, habe ich mich für "Suchportal für Ihre eigene Internetseiten" entschieden [weil Yacy eben auf einer anderen Maschine innerhalb unserer Netzwerkes läuft].

Bei beiden Varianten habe ich die Adresse unseres Intranets angegeben, innerhalb kurzer Zeit wird auch eine Suche durchgeführt... aber leider werden keine(!) Dateien gefunden! Er findet scheinbar immer nur die Hauptseite selbst aber eben leider keine Dateien. :-/

Noch eine Unklarheit: wenn ich angenommen auf "Intranet Indexierung" stelle, kann ich die eigentliche URL des Intranets nicht angeben, da diese als global erkannt und abgewiesen wird.

Freue mich über Hilfe!! Danke Ralf
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon Low012 » Mo Mai 10, 2010 1:06 pm

Die Möglichkeit, Inhalte unter DATA/HTDOCS/repository abzulegen und über http://localhost:8080/repository/ auf sie zuzugreifen wurde ursprünglich für Demo- und Testzwecke eingerichtet, um z.B. auf dem Linuxtag schnell mal Daten in den Ordner zu schieben, zu crawlen und dann die Ergebnisse zu zeigen. Es ist aber egal, ob bei der Einstellung "Intranet Indexierung" die Daten auf dem Rechner liegen, auf dem YaCy installiert ist oder auf einem anderen Rechner im gleichen private Netz.

Haben denn beide Rechner IPs im gleichen Subnetz und stammen die IPs wirklich aus einem privaten Adressbereich?

YaCy ist bei der Intranetindexierung recht pingelig, da auf jeden Fall vermieden werden soll, dass private Daten öffentlich werden.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon bs78 » Mo Mai 10, 2010 1:26 pm

Danke für die Antwort! ja, beide Rechner liegen im selben Subnetz!

Wenn ich jedoch direkt unsere Adresse des Intranets angebe (vergleichbares Beispiel: https://intranet.suffix.de/dok) bekomme ich den Fehler:

Crawling von "https://intranet.suffix.de/dok" schlug fehl. Grund: denied_(the host 'intranet.suffix.de' is global, but global addresses are not accepted)


Wenn ich dann statt der URL die IP-Adresse in der Form: http://10.1.0.26 angebe geht es, findet aber keine Dateien. :cry:
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon Orbiter » Mo Mai 10, 2010 1:47 pm

was stehht denn dann im letzten Fall in http://localhost:8080/IndexCreateParserErrors_p.html
?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon bs78 » Mi Mai 12, 2010 2:57 pm

Vielen Dank für die Mühen! Ich kann schlecht beschreiben woran es lag - doch jetzt geht! Nach einem Test einen tieferen Suchpfad anzugeben, hat es dann funktioniert. Im Anschluss ging auch der Basis-Pfad, welcher zu Beginn nicht funktioniert hat.
bs78
 
Beiträge: 9
Registriert: Mo Mai 10, 2010 10:55 am

Re: Wie Intranet sinnvoll crawlen? Einstellungen?

Beitragvon dulcedo » Mi Mai 12, 2010 4:23 pm

dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 1 Gast

cron