Intranet-Indexierung funktioniert nicht

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Intranet-Indexierung funktioniert nicht

Beitragvon Dingels » Di Mai 08, 2012 12:56 pm

Schönen guten Tag an alle,

ich bin Student der Computerlinguistik und versuche momentan vergeblich, meine vor einigen Wochen mittels wget gecrawlten Internetseiten von YaCy indexieren zu lassen. Es wäre nett, wenn ihr mir als Anfänger eine Hilfestellung geben könntet. Herzlichen Dank im Voraus!

Folgende Schritte habe ich bisher unternommen:
1) Die von wget gecrawlten Internetseiten liegen lokal auf meinem Computer (Mac OS X 10.7 Lion) im Ordner ~/Library/YaCy/DATA/HTDOCS/repository/. Im repository-Ordner liegt ein neuer Ordner, der alle Seiten und Unterordner mit weiteren Seiten enthält. Das sind insgesamt etwa 10.000 Dateien.
2) In der ConficBasic.html habe ich "Intranet Indexierung" ausgewählt. Mein Peer kann von außen nicht erreicht werden, was vermutlich an der Firewall des Rechenzentrums meiner Uni liegt (wohne im Studentenwohnheim, das ans Netz des Rechenzentrums angeschlossen ist). Den Port habe ich bei 8090 belassen. Ob mein Rechner von außen sichtbar ist oder nicht, sollte aber eh keine Rolle spielen, weil ich nur lokal Daten indexieren möchte, sonst nichts.
3) In der ConfigRobotsTxt_p.html habe ich sämtliche Beschränkungen aufgehoben.
4) Nun habe ich versucht, in der CrawlStartExpert_p.html einen Crawl-Vorgang zu starten. Dazu habe ich unter Startpunkt die URL "http://localhost:8090/repository/" angegeben. Unter Crawling-Tiefe habe ich "50" eingestellt (deshalb so hoch, weil ich vorher mit wget mit unendlicher Tiefe habe crawlen lassen und nicht weiß, wie tief die Seitenhierarchie jetzt tatsächlich ist. YaCy soll einfach alles crawlen und indexieren). Dann habe ich den Crawl-Vorgang auf die Startdomain beschränkt und angegeben, dass der Text und sämtliche Medien indiziert werden sollen.
5) Dann habe ich den Crawl-Vorgang gestartet und er lief auch eine Zeit lang. Irgendwann war er dann zuende und schließlich habe ich festgestellt, dass im Index nur ganze 6 Wörter gelandet sind.

Und jetzt kommt's: Wenn ich "http://localhost:8090/repository/" mal lokal bei mir im Browser aufrufe, erscheint nur eine fast leere weiße Seite mit dem Inhalt "Index of /repository/". Und nur genau diese Wörter sind auch gecrawlt worden. Das heißt, wenn ich in der Suchmaschine z.B. nach dem Wort "repository" suche, findet er diesen einen Link.

Eigentlich dachte ich aber, dass direkt alles automatisch indiziert wird, was in dem repository-Ordner liegt. Wie kann ich das erreichen? Was mache ich falsch? Bitte um schnelle Hilfe! :(

Nochmals herzlichen Dank!

Gruß,
Dingels
Dingels
 
Beiträge: 1
Registriert: Di Mai 08, 2012 12:35 pm

Re: Intranet-Indexierung funktioniert nicht

Beitragvon Lotus » Di Mai 08, 2012 9:05 pm

Teste es mal mit dem .tar.gz Archiv. Bei mir funktioniert es nämlich so wie beschrieben. Ich nutze aber kein OSX.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast