Intranet crawling

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Intranet crawling

Beitragvon mrks » Do Mai 28, 2009 6:54 pm

hallo!
ich habe testweise yacy installiert und gleichzeitig xampp auf derselben maschine.

ziel wäre es am ende, yacy für ein lokales wiki in unserem unternehmen einzurichten. ich hätte da ein paar fragen und bereits probleme...

ich habe yacy so konfiguriert, dass er mir im moment noch die xampp seite(n) crawlt. also bei der installation habe ich die intranet einstellung ausgewählt.

wenn ich nun in yacy beispielweise nach "xampp" suche wird mir auch die standardseite von xampp angezeigt. Wenn ich jetzt jedoch nach einem wort auf der seite suche bekomme ich keine ergebnisse geliefert.

was sagt mir der must match filter aus?

Bild
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: Intranet crawling

Beitragvon Orbiter » Fr Mai 29, 2009 10:05 am

hallo mrks!

hört sich sehr interessant an, dein Vorhaben!
Ich glaube das Problem liegt daran, das ich als Default-Einstellung für das Intranet-Crawlen die regex "http://localhost:9000/repository/.*" als Default-Must-Match Filter beim Crawl-Start in http://localhost:8080/CrawlStart_p.html nehme. Wenn du das nicht geändert hast, ist es klar das du hier keine Seiten bekommst. Die Startsteite ist immer von den Filter-Regeln ausgenommen. Ich sollte diese Default-Einstellung ändern, das ist nur verwirrend.

Starte den Crawl noch mal, und nimm ".*" als Must-Match Filter, oder einen spezifischen um genau auf dein Wiki einzugrenzen (den Pfad kenne ich ja nicht, aber er sollte so ähnlich aussehen wie die Start-URL, die du ganz oben eingegeben hast).
Wenn du den Must-Match Filter zu 'lazy' setzt, also bsp. '.*', dann bekommst du ggf. alle Dateien die xampp ausserdem noch hostet, inklusive myPHPAdmin u.s.w.

Eine Anleitung, wie du dann YaCy in das Mediawiki einbindest (wenn du ein mediawiki hast, ansonsten ist es ganz ähnlich), findest du jetzt hier: viewtopic.php?p=15288#p15288
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron