Diverse Fragen....

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Diverse Fragen....

Beitragvon Maxi-Fussel » Mo Aug 16, 2010 3:55 pm

So , habe jetzt seit einiger Zeit eine SuMa auf unserem Server laufen, die in der Endausbaustufe ca. 2000 Domains regelmässig crawlen wird und diese Daten einer bestimmten Community kostenlos zur Verfügung stellen wird.

Einige Worte zum System:

- Debian
- 1000 GB HD
- 16 GB RAM
- Quad-Core


Zu Yacy sind jetzt einige Fragen aufgetaucht, die ich hoffe hier beantwortet zu bekommen ....ggg:

- wo befinden sich die Ordner zum Recrawlen (autorecrwalWeekly usw.) - finde die trotz ausgiebiger Suche nicht...
- wo befindet sich eine Liste der bereits gecrawlten Domains und wie kann diese eingesehen / verändert werden
- warum wird ein Autorecrawl nicht automatisch nach der ausgesuchten Zeit durchgeführt (weekly, daily usw. )
- lässt Sich die Blacklist und die Domains, die Recrawlt werden sollen, auch von Hand im System verändern
- wie überprüfe ich, ob Yacy läuft und kann es via cron eventuell neu starten
- wie performant ist Yacy , insbesondere im Hinblick auf die Zahl der Domains
- wo werden die gecrawlten Daten abgelegt (Verzeichnis, Dazei ?)
- kann ich anderen Yacy-Peers meinen Peer zur Verfügung stellen für Suchaufträge (und andersrum),OHNE dass deren Daten bei mir übernommen werden ?


Hoffe sehr auf Antworten, das Suchpn absehbarer Zeit online gehen ......herzlichsten Dank schon mal im Vorraus !

lG
Thomas
Maxi-Fussel
 
Beiträge: 11
Registriert: Fr Apr 17, 2009 11:04 am

Re: Diverse Fragen....

Beitragvon Copro » Mi Aug 18, 2010 7:21 am

Ich versuche mal zu beantworten was ich schaffe ;-)

Maxi-Fussel hat geschrieben:- wo befinden sich die Ordner zum Recrawlen (autorecrwalWeekly usw.) - finde die trotz ausgiebiger Suche nicht...

Das sind keine echten Ordner sondern nur Ordner Definitionen die in der angegebenen Datei (<YACY_INSTALLATIONS_ORDNER>/DATA/SETTINGS/autoReCrawl.conf)konfiguriert sind:
Code: Alles auswählen
# YaCy autoReCrawl configuration for bookmark folders
#
# schedule|folder|filter|crawlingdepth|crawlingIfOlder|DomFilterDepth|DomMaxPages|crawlingQ|indexText|indexMedia|crawlOrder|xsstopw|storeHTCache
3600000   /autoReCrawl/hourly   .*   1   59   -1   -1   true   true   true   true   false   false
86400000   /autoReCrawl/daily   .*   3   1439   -1   -1   true   true   true   true   false   false
604800000   /autoReCrawl/weekly   .*   3   10079   -1   -1   true   true   true   true   false   false
2678400000   /autoReCrawl/monthly   .*   4   44639   -1   -1   true   true   true   true   false   false
# eof

Maxi-Fussel hat geschrieben:- wo befindet sich eine Liste der bereits gecrawlten Domains und wie kann diese eingesehen / verändert werden

Wenn die Crawls eigens über das YaCy Interface für jede Domäne angelegt wurden kann man hier die Profile und den Status einsehen und z.B. ändern:
http://localhost:8080/CrawlProfileEditor_p.html
Maxi-Fussel hat geschrieben:- warum wird ein Autorecrawl nicht automatisch nach der ausgesuchten Zeit durchgeführt (weekly, daily usw. )

Das wird er schon wenn das so konfiguriert ist - siehe Optionen beim Erstellen des Crawls.
Maxi-Fussel hat geschrieben:- lässt Sich die Blacklist und die Domains, die Recrawlt werden sollen, auch von Hand im System verändern

Ja, die Blackliste findet man in <YACY_INSTALLATIONS_ORDNER>/LISTS/url.default.black
Maxi-Fussel hat geschrieben:- wie überprüfe ich, ob Yacy läuft und kann es via cron eventuell neu starten

In der <YACY_INSTALLATIONS_ORDNER>/yacy.pid steht die Prozess ID anhand der man prüfen kann ob YaCy noch läuft.
Ein Neustart kann über die Shellbefehle ausgelöst werden. (Alles in <YACY_INSTALLATIONS_ORDNER>: stopYACY.bat (Windows), stopYACY.sh (Linux), startYACY.bat (Windows), startYACY.sh (Linux)
Im Debian Paket gibt es schon ein fertiges init Skript das man vielleicht an die verwendete Distribution anpassen kann:
/etc/init.d/yacy restart
Maxi-Fussel hat geschrieben:- wie performant ist Yacy , insbesondere im Hinblick auf die Zahl der Domains

Mit den Daten des (Server) Systems sollte das kein Problem darstellen.
Maxi-Fussel hat geschrieben:- wo werden die gecrawlten Daten abgelegt (Verzeichnis, Dazei ?)

In <YACY_INSTALLATIONS_ORDNER>/DATA/INDEX/
In den Unterverzeichnisses dort, z.B. der gewählten Konfiguration werden dann die Daten abgelegt.
Im Beispiel freenet (das öffentliche P2P Netzwerk) also Dateien in der Art:
DATA\INDEX\freeworld\SEGMENTS\default\text.urlmd.<TIMESTAMP>.table
DATA\INDEX\freeworld\SEGMENTS\default\text.index.<TIMESTAMP>.blob
Maxi-Fussel hat geschrieben:- kann ich anderen Yacy-Peers meinen Peer zur Verfügung stellen für Suchaufträge (und andersrum),OHNE dass deren Daten bei mir übernommen werden ?

Ja - ich denke die optimale Konfiguration wäre ein Public Peer im Robinson Modus - einzustellen hier:
http://localhost:8080/ConfigNetwork_p.html
Copro
 
Beiträge: 207
Registriert: Do Dez 13, 2007 3:37 am

Re: Diverse Fragen....

Beitragvon Maxi-Fussel » Mi Aug 18, 2010 10:14 am

Copro hat geschrieben:Ich versuche mal zu beantworten was ich schaffe ;-)

Maxi-Fussel hat geschrieben:- wo befinden sich die Ordner zum Recrawlen (autorecrwalWeekly usw.) - finde die trotz ausgiebiger Suche nicht...

Das sind keine echten Ordner sondern nur Ordner Definitionen die in der angegebenen Datei (<YACY_INSTALLATIONS_ORDNER>/DATA/SETTINGS/autoReCrawl.conf)konfiguriert sind:
Code: Alles auswählen
# YaCy autoReCrawl configuration for bookmark folders
#
# schedule|folder|filter|crawlingdepth|crawlingIfOlder|DomFilterDepth|DomMaxPages|crawlingQ|indexText|indexMedia|crawlOrder|xsstopw|storeHTCache
3600000   /autoReCrawl/hourly   .*   1   59   -1   -1   true   true   true   true   false   false
86400000   /autoReCrawl/daily   .*   3   1439   -1   -1   true   true   true   true   false   false
604800000   /autoReCrawl/weekly   .*   3   10079   -1   -1   true   true   true   true   false   false
2678400000   /autoReCrawl/monthly   .*   4   44639   -1   -1   true   true   true   true   false   false
# eof


ok, und woher weiss also Yacy, welche Domain wann recrawlt werden soll? Das muss ja in irgend einem File abgelegt sein, oder in der DB oder so ?


Maxi-Fussel hat geschrieben:- wo befindet sich eine Liste der bereits gecrawlten Domains und wie kann diese eingesehen / verändert werden

Wenn die Crawls eigens über das YaCy Interface für jede Domäne angelegt wurden kann man hier die Profile und den Status einsehen und z.B. ändern:
http://localhost:8080/CrawlProfileEditor_p.html


ok, gibt es aber ausser dieser im handling für mich unbefriedigenden Methode auch die Möglichkeit, das direkt in einem File zu machen ? Also quasi: ich lade mir die Liste mit den Domains und den Einstellungen herunter, editiere sie, schieb sie wieder hoch und gut ?

Maxi-Fussel hat geschrieben:- warum wird ein Autorecrawl nicht automatisch nach der ausgesuchten Zeit durchgeführt (weekly, daily usw. )

Das wird er schon wenn das so konfiguriert ist - siehe Optionen beim Erstellen des Crawls.


Habe bei manchen Domains den EIndruck dass er das eben nicht macht....muss ich mal nachverfolgen....


Maxi-Fussel hat geschrieben:- kann ich anderen Yacy-Peers meinen Peer zur Verfügung stellen für Suchaufträge (und andersrum),OHNE dass deren Daten bei mir übernommen werden ?

Ja - ich denke die optimale Konfiguration wäre ein Public Peer im Robinson Modus - einzustellen hier:
http://localhost:8080/ConfigNetwork_p.html


Hab das jetzt mal so eingestellt, also den Punkt

"Sie sind für andere Peers sichtbar und kontaktieren sie um ihnen Ihre Anwesenheit mitzuteilen.
Ihr Peer akzeptiert keinerlei Indexdaten von außen, aber antwortet auf alle Remote-Suchanfragen."

gewählt,, allerdings kommt beim Speichern die Meldung

"Änderungen wurden gespeichert.
Dieser Robinson-Modus erlaubt keinerlei Remote-Indexierung (es wird weder Remote-Indexierung angefragt, noch akzeptiert)."

Das widerspricht doch eigentlich dem gewählten Punkt, oder ? Ich kann auch keinerlei Aktivität von aussen feststellen. Was muss ich hier noch berücksichtigen ? Möchte ja, wenn ich schon Freeware wie Yacy benutze, der Gemeinschaft auch was zurück geben, auch wenns nur REchenkraft und Traffic ist (beides juckt mich gerade net sonderlich, hab 5TB free im Monat und die mittl. CPU-Last liegt bei 3,irgendwas %).

Maxi-Fussel
 
Beiträge: 11
Registriert: Fr Apr 17, 2009 11:04 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste