YaCy als Crawler für feste Domainliste einsetzbar?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Fr Jul 03, 2009 6:45 pm

Hallo,
ich war auf der Suche nach einem Script, mit dem ich eine fest definierbare Liste von Domains nach Begriffen durchsuchen (und gern auch bestimmte Unterordner vom Crawlen ausschließen) kann. Früher hatte ich dazu den Yahoo Web Builder, der exakt das geliefert hat, was ich brauchte, den es nun aber so nicht mehr gibt. Dann bin (mal wieder) auf YaCy gestoßen und frage nun: Geht das mit dieser Software?

Ich habe mich in der Konfiguration von YaCy getummelt, auf dem Wiki und auch hier im Forum gesucht. Allerdings nichts dazu gefunden. Würde mich freuen, wenn jemand einem YaCy-Newbie weiterhelfen könnte.
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Lotus » Fr Jul 03, 2009 7:00 pm

Mit dem must-not-match Filter (Regex und doppel-\\ für Java) kannst du Ordner beim Crawl ausschließen.
Suchen geht bei YaCy immer. ;)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Fr Jul 03, 2009 7:12 pm

Danke. Ich hab bereits eine kryptische Antwort erwartet ;-) Im Ernst: Ich will YaCy einfach nur mit einer Liste von Domains füttern, die gecrawlt werden sollen. Nur diese Domains, ausgehende Links sollen nicht verfolgt werden, damit ich bei der Suche nur Ergebnisse von diesen - sagen wir mal 200 Domains - erhalte.
Wenn das möglich ist, würde ich mich freuen, wenn mir jemand mit einfachen Worten sagen könnte, wie ich dies YaCy beibringen kann oder wo ich ein entsprechendes HowTo finden kann.
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Orbiter » Sa Jul 04, 2009 6:49 am

das wäre einfach:
- Start von File (deine Liste)
- crawl-Tiefe 0
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Sa Jul 04, 2009 10:05 am

Danke, das klingt wirklich easy. Da er meine Liste aber nicht wollte (war ein OpenOffice-Dokument, schätze YaCy steht auf XML), habe ich einfach eine HTML-Datei angelegt, die URLs dort eingefügt, Datei hochgeladen auf eine Seite, das Ganze als "Indizieren von URL" angegeben, die Tiefe auf 1 gesetzt und den Prozess gestartet. Jetzt bin ich gespannt.
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Sa Jul 04, 2009 10:38 am

Die Sache mit der URL funktionierte so leider nicht. Hab ihm die lokale HTML-Datei gegeben, Tiefe auf 0, wunderbar, alle Domains sind drin. YaCy hat aber nur die Startseiten indiziert, was wenig bringt. Es soll aber jede Domain bis in die untersten Seiten indiziert werden, aber nicht weiteren ausgehenden Links auf den Domains gefolgt werden. Kann es sein, dass ich hierzu noch etwas ändern muss?
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Lotus » Sa Jul 04, 2009 10:41 am

Plain-Text sollte auch funktionieren.
Für deine Anwendung wäre dann der Domain-Tiefen-Filter (Auto-Dom-Filter) passend.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Phiber » Sa Jul 04, 2009 12:57 pm

Für dein vorhaben müsstest du einfach:

- Crawlstart von dem HTML File was du angelegt hast und ja auch geklappt hat.
- Filter basteln, der nur Seiten mit dieser Domain zulässt
- Crawltiefe aber ruhig auf 10 stellen, damit er innerhalb dieser DOmains dann auch wirklich ALLES was via Hyperlinks erreichbar ist, crawlt.

Das Problem ist nun der 2te Punkt, der Filter:
- Ist es überhaupt möglich beim Crawlstart einen Whitelist-Filter für x Domains zu erstellen?
- Falls das nicht geht, via Blacklist (welche ja auch für den Crawler und Indexer blacklisten kann) eine Whitelist-Filter für diese Domains. Sofern das geht?

Habe leider gerade kein YaCy um damit jetzt rumzuspielen.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Sa Jul 04, 2009 1:17 pm

Phiber hat geschrieben:- Filter basteln, der nur Seiten mit dieser Domain zulässt

Danke für den Tipp. Hab jetzt mal die von dir empfohlenen Einstellungen vorgenommen und teste beim Filter mal "Auf Startdomain beschränken". Vielleicht hab ich Glück und YaCy nimmt aufgrund der Übergabe von 200 Startdomains via lokaler HTML-Datei dann nur diese :)
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Phiber » Sa Jul 04, 2009 1:19 pm

Loewenherz hat geschrieben:
Phiber hat geschrieben:- Filter basteln, der nur Seiten mit dieser Domain zulässt

Danke für den Tipp. Hab jetzt mal die von dir empfohlenen Einstellungen vorgenommen und teste beim Filter mal "Auf Startdomain beschränken". Vielleicht hab ich Glück und YaCy nimmt aufgrund der Übergabe von 200 Startdomains via lokaler HTML-Datei dann nur diese :)


Beobachte halt die Anzahl Links in der lokalen Crawl-Queue. Wenn da auf einmal 200'000 Seiten statt 30k drin sind und von fremden Domains, greift der Filter nicht und mit Tiefe 10 crawlst du möglicherweise das ganze Internet ;)
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Sa Jul 04, 2009 1:35 pm

Wenn ich auf "Ergebnisse des lokalen Crawlens" gehe, hat er weiterhin nur die Startseiten der Domains drin. Irgendwas funktioniert jedenfalls noch nicht.
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Huppi » So Jul 05, 2009 3:28 pm

Wenn Du die Re-Crawl-Funktion nicht eingeschaltet hast, verwirft YaCy die bereits gecrawlten URLs. Müßtest Du dann im Log sehen können.

Sehr praktisch ist der Auto-Dom-Filter beim Crawl-Start:
Auto-Dom-Filter: Diese Option erzeugt automatisch einen Domain-Filter der den Crawl auf die Domains beschränkt , die auf der angegebenen Tiefe gefunden werden. Diese Option kann man beispielsweise benutzen, um eine Seite mit Bookmarks zu crawlen und dann den folgenden Crawl automatisch auf die Domains zu beschränken, die in der Bookmarkliste vorkamen. Die einzustellende Tiefe für dieses Beispiel wäre 1.
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Mo Jul 06, 2009 1:54 pm

Hi,

hab die beiden von dir empfohlenen Einstellungen zu dem, was bisher war, hinzugefügt. Hey, und erstmals geht YaCy über die Startseiten hinaus. Indiziert aber auch die ausgehenden Links der Domain und zieht sich unter anderem grade Artikel der Wikipedia rein. Ich hoffe, dass jetzt nicht das halbe Web gespidert wird... ;-)
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon dulcedo » Mo Jul 06, 2009 3:01 pm

Das liegt wiederum an der Recrawl-Option die ist noch nicht ganz fertig, es wird beim Recrawl dann die Beschränkung auf eine Domain ignoriert.
Lösung wüsste ich momentan keine, es sei denn wir machen noch eine Änderung vor dem geplanten Redesign von Bookmarks und Recrawl.
Das wäre die Frage an Apfelmännchen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Lotus » Mo Jul 06, 2009 3:58 pm

dulcedo hat geschrieben:Das liegt wiederum an der Recrawl-Option

*Korrektur*
Du meinst den Auto-ReCrawl. Die Recrawl-Option besagt nur, dass Seiten älter x neu gecrawlt werden dürfen.

@Löwenherz
da dürften dann die Optionen noch nicht optimal eingestellt sein (vielleicht diesmal eine andere vergessen einzustellen).
Was du vor hast müsste mit den verfügbaren Mitteln gehen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon dulcedo » Di Jul 07, 2009 5:40 am

Das hatte ich falsch gelesen.
Ich habe eine Linkliste von Publikationen die sich online befindet die ich eben mit diesem Auto-Dom-Filter crawle und das funktioniert so wie beschrieben, er crawlt dann jede Publikation so als wenn ich sie einzeln als Startpunkt definiere und dort "MustMatch-Restrict to StartDomain". Aber nur einmal händisch, nicht per AutoRecrawl.

Was bei dir noch schiefgehen könnte wäre ein unerwünschter Link auf der Liste selbst? Ein Copyright mit Lizenzinfo, so landet man gerne auch auf Wikipedia oder ähnlichen Seiten.
Die brachiale Lösung ist ihm wikipedia über die Blackliste auszutreiben: *.wikipedia.org/*
Es gibt noch ein paar solcher Kandidaten, mister-wong, amazon, ... wenn du die über CrawlResults kontrollierst und dann aussperrst hast du recht schnell das wichtigste unerwünschte draussen.

Oder noch brachialer: mit genug Speicher die deutsche und englische wikipedia einfach crawlen lassen, kann man auch als Surrogat einlesen, den Rest aussperren, er macht das ja nur einmal.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon apfelmaennchen » Di Jul 07, 2009 5:58 am

dulcedo hat geschrieben:Aber nur einmal händisch, nicht per AutoRecrawl.


AutoRecrawl unterstützt alle Optionen eines normalen CrawlsStarts - siehe dazu viewtopic.php?f=5&t=1439#p9931.
Du musst vermutlich in DATA/SETTINGS/autoReCrawl.conf die DomFilterDepth entsprechend einstellen.

Möchte man die feste Domainliste regelmäßig Crawlen, dann lohnt sich der Import in die Bookmarks und das Anlegen eines entsprechenden Crawl-Profils in DATA/SETTINGS/autoReCrawl.conf auf jeden Fall.

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Mi Jul 08, 2009 8:02 pm

dulcedo hat geschrieben:Was bei dir noch schiefgehen könnte wäre ein unerwünschter Link auf der Liste selbst? Ein Copyright mit Lizenzinfo, so landet man gerne auch auf Wikipedia oder ähnlichen Seiten.
Die brachiale Lösung ist ihm wikipedia über die Blackliste auszutreiben: *.wikipedia.org/*

Nun, auf den zu indizierenden Domains gibt es hunderte von ausgehenden Links. Diese alle per Blacklist auszuschließen wäre eine Sysiphus-Arbeit...
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon PCA42 » Mi Jul 08, 2009 8:17 pm

Loewenherz hat geschrieben:Danke, das klingt wirklich easy. Da er meine Liste aber nicht wollte (war ein OpenOffice-Dokument, schätze YaCy steht auf XML), habe ich einfach eine HTML-Datei angelegt, die URLs dort eingefügt, Datei hochgeladen auf eine Seite, das Ganze als "Indizieren von URL" angegeben, die Tiefe auf 1 gesetzt und den Prozess gestartet. Jetzt bin ich gespannt.

Nochmal auf Anfang.
Datei mit Liste der Domains irgendwo hochladen. Diese Datei als Crawl-Start wählen. "Auto-Dom-Filter" auf "1", d.h. alle Domains, die er auf der 1. Ebene (dein Dokument) findet, werden erlaubt. "Crawling-Tiefe" dann auf "7" (reicht meiner Erfahrung nach für eine Domain). Nicht gewünscht Unterseiten müssen leider über die Blacklist manuell ausgeschlossen werden. Ggf. "Re-crawl bekannter URLs" anpassen, damit die Seiten nach den ersten Versuchen nochmal neu indiziert werden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Mi Jul 08, 2009 8:31 pm

Hallo,
ich würde ja gern :) Aber sobald ich YaCy starte, macht er dort weiter, wo ich ihn zuletzt gestoppt habe und versucht weiter, das Web zu indizieren. Ich finde nur den Start-Knopf, kann aber dieses wildgewordene Stück Software nicht anhalten. Houston, wir haben ein Problem...
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon PCA42 » Mi Jul 08, 2009 8:39 pm

Dann geb ich mal den Yacy-Bändiger. Schau mal unter http://localhost:8080/CrawlProfileEditor_p.html. Dort kann du den gestarteten Crawl beenden und löschen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Mi Jul 08, 2009 8:56 pm

würd ich gern. aber da wird per htaccess Benutzername und Passwort gefordert, die ich nie vergeben habe...

P.S.: Okay, eine Minute später kam ich ohne rein.
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon Loewenherz » Mi Jul 08, 2009 9:06 pm

So, zur Doku:

Startpunkt Von URL: HTML-Datei auf einem meiner Webserver
Lesezeichen: keine Angabe
Crawling-Tiefe: 7
Muss-entsprechen Filter: Filter nutzen
Muss-nicht-entsprechen Filter: keine Angabe
Re-crawl bekannter URLs: Benutzen wenn älter als 1 Tag
Auto-Dom-Filter: Benutzen ja, 1
Maximale Seiten pro Domain: keine Angabe
auch sonst keine weiteren Angaben. Dann Crawler starten
Loewenherz
 
Beiträge: 11
Registriert: Fr Jul 03, 2009 6:37 pm
Wohnort: Aschaffenburg

Re: YaCy als Crawler für feste Domainliste einsetzbar?

Beitragvon bebop » Do Dez 30, 2010 12:55 am

you wan tto restrict yacy to a list of domains on a special network or on the freewold global network

if it is on a special network you can define a list for that :

network definition file :

# Network definition file for the freeworld network
# this is the default standard network for fresh YaCy Peers

# -----------------------------------------------------------------#
# for an explanation please see the file yacy.network.readme #
# this is a work in progress. disabled properties are not yet used #
# -----------------------------------------------------------------#

# general network definition
network.unit.name = green vibes
network.unit.description = Green Vibes YaCy Community
network.unit.domain = any
network.unit.domainlist = http://youracces to the list file/Yacy/SiteListPlainText

network.unit.search.time = 4
network.unit.dht = true
network.unit.dhtredundancy.junior = 1
network.unit.dhtredundancy.senior = 3
network.unit.dht.partitionExponent = 4
network.unit.remotecrawl.speed = 300
bebop
 
Beiträge: 20
Registriert: Mi Apr 15, 2009 6:02 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast