freeworld Node mit eigenem Index

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

freeworld Node mit eigenem Index

Beitragvon henschi » Di Jun 28, 2011 5:16 pm

Ich habe vor Yacy als ein freeworld Peer einzusetzen, der aber einen eigenen Index besitzt. Der eigene Index ist ein von mir gepflegter Index, so dass der Index nur von mit bestimmte Seiten enthält. Zusätzlich darf dieser Peer natürlich keine Daten von anderen Peers in den eigenen Index aufnehmen. Andere Peers sollen aber den Index benutzen dürfen.
Macht das der "Robinson Mode" als "Public Peer"? Gibt es im "Robinson Mode" so etwas wie DHT?

Zusätzlich habe ich vor den Index nur mit Seiten zu füllen, die ich mir vorher ausgesucht habe. Dazu habe ich den Thread "Hilfeschrei Projekt "Suchmaschine für Kids"" verfolgt und bin auch Post http://forum.yacy-websuche.de/viewtopic.php?f=5&t=3123#p21667 gestoßen. Reicht es wirklich die "network.unit.domainlist" auf eine Seite mit meinen Seitenlinks zu setzen und den Crawler an zuwerfen?
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel

Re: freeworld Node mit eigenem Index

Beitragvon PCA42 » Di Jun 28, 2011 8:07 pm

Du bist da schon vollkommen richtig gelandet mit deinen Einstellungen.

Der Robinson Mode als Public Peer entspricht dem von dir gesetzten Ziel eines eigenständigen, moderierten Index, der jedoch global für alle als Suchergebnisse liefert.
DHT ist im Robinson Modus deaktiviert. Dies bedeutet aber auch, wenn du mit deinem Robinson Peer eine Suche durchführst, dass nur lokale Ergebnisse zurückgeliefert werden.
Der Eintrag "network.unit.domainlist" muss auf eine Whitelist zeigen, die deinen gewählten Domains entspricht. Diese müssen jedoch als reguläre Ausdrücke vorgegeben werden. Die beim zitierten Beitrag aufgeführten Links zu den sciencenet-Einstellungen sind da ein gutes Beispiel.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: freeworld Node mit eigenem Index

Beitragvon henschi » Fr Jul 01, 2011 3:24 pm

Ok, das funktioniert gut.

Ich habe nun nur ein paar Probleme mit dem crawlen selbst. :-( (SVN:7724)
1. Benutzt der Crawler eigentlich das Datum der Seite um festzustellen ob sich etwas geändert hat?
2. Irgendwie klappt das mit den stopwords nicht. Ich habe eine leere yacy.stopwords und eine yacy.stopwords.de . Leider finde ich danach im Index diese Wörter .
Im Log sieht das auch verdächtig aus:
Code: Alles auswählen
I 2011/07/01 16:10:33 HTCACHE storing content of url http://www..
I 2011/07/01 16:10:33 PLASMA Excluded 0 words in URL http://www..
I 2011/07/01 16:10:33 PLASMA *Indexed 141 words in URL http://www..

3. Beim erstellen des Experten Crawls habe ich ein Option für die Stopwords, aber in der Detailansicht des Crawljobs werden 3 Optionen dafür angezeigt. Warum?
4. Egal ob ich anklicke das der Content nicht in den Cache soll, zeigt das Log "HTCACHE storing content of url..." an.
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel

Re: freeworld Node mit eigenem Index

Beitragvon henschi » So Jul 03, 2011 3:17 pm

Der Punkt 2 scheint sich erledigt zu haben. Ich benutze nun nur noch die Datei yacy.stopwords . Die Dateien mit der zusätzlichen Spache funktionieren nicht.

Der Punkt 1 mit dem "last modified" Datum wäre für mich noch wichtig. Versucht yacy überhaupt das Datum der Datei auszulesen?
henschi
 
Beiträge: 65
Registriert: So Okt 07, 2007 6:49 pm
Wohnort: Brandenburg an der Havel


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast