autoCrawl NICHT autoREcrawl

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

autoCrawl NICHT autoREcrawl

Beitragvon liebel-lab » Fr Sep 19, 2008 4:04 pm

Gruesse zusammen...
sorry falls es irgendwo schon notiert sein sollte...

ich versuche mich daran auf mehreren sciencenet peers taeglich einen crawl ueber die news-site sciencedaily.com zu starten. diese weird alle 4h geupfdated.
wenn ich das richtig beobachte wird mit der autorecrawlfunktion derzeit
a) ein totaler recrawl gestartet ..ist esa irgednwie möglich nur die neuen seiten zu indizieren? (macht bei einer news seite sehr sinn)..oder das "maxAge" zu übernehmen?
b) scheint mit dem autorecrawl auch jeder domainfilter NICHT mit uebernommen zu werden....

Bsp: der autoRecrawl "sciencedaily.com" tiefe 3 und filter ".*sciencedaily.com/.*" startet beim zweiten start mit filter ".*" :-)
...ich muss leider auch zugeben dass ich die autoReCrawl.config mit den zugehoerigen bookmarkfoldern noch nicht ganz blicke....
..wie immer bin ich fuer kurze info dankbar...

salve aus KA

UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon apfelmaennchen » Fr Sep 19, 2008 6:55 pm

Leider ist autoReCrawl nicht wirklich Benutzerfreundlich und sicher nicht der Weisheit letzter Schluß.
Wie gesagt es handelt sich um eine Erweiterung der Lesezeichen, gedanklich also bitte vom "normalen" CrawlStart trennen!

Aufgabe:

täglicher Crawl der news-site sciencedaily.com

Vorgehensweise:

1) Anlegen eines Lesezeichens (kann auch mit dem "normalen CrawlStart" geschehen)
URL: http://www.sciencedaily.com
Folder: /y-beliebig/x-beliebig

2) Editieren von DATA/SETTINGS/autoReCrawl.conf (die Parameter sind identisch zu einen normalen CrawlStart)

schedule: 86400000 ==> Zeitintervall in ms zwischen zwei Crawls (daily = 1000 x 60 x 60 x 24)
folder: /y-beliebig/x-beliebig ==> tatsächlich kann man jeden beliebigen Lesezeichen-Folder angeben
filter: dom ==> hier kann man den Crawl-Filter eintragen: z.B. .* / dom / sub
crawlingdepth: 1
crawlingIfOlder: 1440 ==> Achtung hier werden Minuten erwartet (neu indexieren der URL wenn älter als 1 Tag = 60 x 24)
DomFilterDepth: -1
DomMaxPages: -1
crawlingQ: true
indexText: true
indexMedia: true
crawlOrder: true
xsstopw: false
storeHTCache: false

3) der autoReCrawl Thread schaut alle 60 min. (konfigurierbar) nach, ob es was zu tun gibt (siehe LOG)
4) das war's, der Rest sollte von alleine laufen...

Richtig, ein normaler CrawlStart ist für autoReCrawl nicht erforderlich, schadet aber auch nicht. Schon bei der zweiten News-Site genügt Schritt 1) mit der entsprechenden URL ... die Idee war ja eben, nicht für jede URL ein eigenes Profil anlegen zu müssen - theoretisch könnte man aber jede URL in einen eigenen Folder packen, mit individuellem Profil.

autoReCrawl.conf ist sehr empfindlich!
Es muss ein Profil je Zeile mit allen 13 Parametern durch TAB getrennt ohne Leerzeichen eingegeben werden!

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon liebel-lab » Fr Sep 19, 2008 8:42 pm

besten dank apfelm. bessr kann man es nicht erklären :-)...
wird sofort getestet...

merci
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon asdfgamed » Di Jun 02, 2009 12:13 am

wird nur auto recrawlt wenn ich das lesezeichen als newsfeed definiere??
asdfgamed
 

Re: autoCrawl NICHT autoREcrawl

Beitragvon apfelmaennchen » Di Jun 02, 2009 12:52 am

Ob ein Bookmark als Newsfeed gekennzeichnet ist, hat keinen Einfluss auf die AutoRecrawl-Funktion!
Was genau ist Deine Frage bzw. Dein Problem?

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon dulcedo » Di Jun 02, 2009 6:56 am

Danke ebenfalls!

Dann ist wohl die beste Strategie von vorneherein mehr Folder anzulegen um so verschiedene ReCrawl-Situationen abzubilden. Der Benutzer neigt wirklich dazu über den Crawl selbst zu steuern da er denkt hourly, daily, weekly seien fest vorgegebene Folder, das ist das einzige Benutzerunfreundliche. Das System selbst ist sehr flexibel und einfach. Fehlt eigentlich nur ein bequemer Editor für die .conf was mir nie besonders aufgefallen ist weil ich einen externen habe. Allerdings in PHP, Crawling steuere/kontroliere ich meistens direkt aus anderen Anwendungen heraus. Ich kann es mit Java versuchen und die Funktion selbst ohne YaCy-Gerüst bauen, wenn Unsinn herauskommt schmeiss es einfach weg, ich übe noch.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: autoCrawl NICHT autoREcrawl

Beitragvon apfelmaennchen » Di Jun 02, 2009 7:16 am

Ich will keinen vom Mitmachen abhalten....aber AutoReCrawl zieht selbstverständlich mit den Bookmarks in die neue DB um - die autoReCrawl.conf ist also schon fast tot.
In diesem Zuge überlege ich noch, ob ich AutoReCrawl von den Foldern entkopple oder zumindest zusätzlich eine Knüpfung an einzelne URLs anbiete ....

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon dulcedo » Di Jun 02, 2009 7:19 am

Prima, ich reisse mich nicht drum, ich benutze es nur häufig.
Zur Überlegung:
Ich crawle eine URL, damit schaue ich zu allererst ob die Tiefe passt und schaue eine Weile zu. Crawlt er so wie ich will dann kopiere ich den Crawl in den Ordner der zu den gewünschten Einstellungen passt. Die Ordner bestimmen also die Art des Crawls nicht den Zeitpunkt. Das kopieren/löschen/editieren sind Operationen die auch jedes externe Programm mit FTP-Zugriff kann, deshalb würde ich das ähnlich belassen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: autoCrawl NICHT autoREcrawl

Beitragvon asdfgamed » Di Jun 02, 2009 12:40 pm

also mein recrawl will nicht wirklich so wie ich will..
meine vorgehensweise:

-ich lege einen crawl an:
name:wiki
ordner: /crawl/wiki
setze das häkchen für ein lesezeichen
-crawl ist eingetragen und läuft irgendwann ab, status "terminated"
-editiere die autorecrawl.conf wie folgt:
30000 /crawl/wiki .* 5 45 -1 -1 true true true true false false
-trage in "Performanceeinstellungen für Puffer und Prozesse" unter "autoReCrawl Scheduler" ebenfalls 30000 ms ein
-warte auf erneutes crawlen
:/
asdfgamed
 

Re: autoCrawl NICHT autoREcrawl

Beitragvon asdfgamed » Di Jun 02, 2009 1:28 pm

für was stehen eigentlich die parameter?
crawlingQ soll wohl post urls akzeptieren/nicht akzeptieren?
asdfgamed
 

Re: autoCrawl NICHT autoREcrawl

Beitragvon apfelmaennchen » Di Jun 02, 2009 1:44 pm

Vielleicht hilft ein Blick ins Log (auf BOOKMARKS filtern):

Startet der Thread?
Code: Alles auswählen
BOOKMARKS autoReCrawl - serverBusyThread initialized checking every 60 minutes for recrawls

Ob das Umstellen mit "Performanceeinstellungen für Puffer und Prozesse" im laufenden Betrieb geht, habe ich nie getestet...ggf. musst Du YaCy neu starten!

Arbeitet der Thread?
Code: Alles auswählen
BOOKMARKS autoReCrawl - reading schedules from /media/yacy/yacy/DATA/SETTINGS/autoReCrawl.conf
BOOKMARKS autoReCrawl - processing: /autoReCrawl/hourly
BOOKMARKS autoReCrawl - processing: /autoReCrawl/daily
BOOKMARKS autoReCrawl - processing: /autoReCrawl/weekly
BOOKMARKS autoReCrawl - processing: /autoReCrawl/monthly


Werden Bookmarks gefunden?
Code: Alles auswählen
BOOKMARKS autoReCrawl - checking schedule for: [2009/06/02 14:29:02] http://www.spiegel.de


Werden Crawls gestartet?
Code: Alles auswählen
BOOKMARKS autoReCrawl - adding crawl profile for: http://www.spiegel.de


Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon asdfgamed » Di Jun 02, 2009 10:00 pm

ich hab jetzt mal ein lesezeichen erstellt, und in der recrawl config für das lesezichen folgende werte eingetragen:

300000 /crawl/wiki .* 1 4 -1 -1 false true true true false false

der crawl durchläuft mein wiki, usw. alles gut.. nur habe ich bei manchen suchbegriffen (>4 zeichen) probleme. er sagt mir er hat 1 ergebnis, zeigt es mir aber nicht an! unter zugriff - lokale suche gibt erm ir das auch aus:

localhost 2009/06/02 22:45:50 0 10 1 0 0 0 update

"update" ist der suchbegriff, ja :) alles zu testzwecken.

vor einer halben stunde jedoch hat er mir den begriff noch in der suche korrekt ausgegeben.. das problem tritt meist bei suchbegriffen auf, die ich nach dem ersten crawl ins wiki eingtragen habe, um zu sehen ob er auch neu hinzukommende begriffe speichert. merke aber, dass er es irgendwie mit jedem suchbegriff macht...

log sagt:

I 2009/06/02 22:51:45 LOCAL_SEARCH INIT WORD SEARCH: update:OsNAgy8pwRU4 - 10 links to be computed, 10 lines to be displayed
I 2009/06/02 22:51:45 LOCAL_SEARCH EXIT WORD SEARCH: update - 1 links found, 0 ms
(ausgabe bleibt leer)

I 2009/06/02 22:55:42 LOCAL_SEARCH INIT WORD SEARCH: update:OsNAgy8pwRU4 - 10 links to be computed, 10 lines to be displayed
I 2009/06/02 22:55:42 LOCAL_SEARCH EXIT WORD SEARCH: update - 0 links found, 0 ms
(ausgabe bleibt immernoch leer)

yacy wechselt sich in den begriffen, die er findet aber mir nicht nennen möchte, ab :(
asdfgamed
 

Re: autoCrawl NICHT autoREcrawl

Beitragvon asdfgamed » Di Jun 02, 2009 10:05 pm

macht es einen unterschied ob ich während eines crawls suche oder davor/danach?
asdfgamed
 

Re: autoCrawl NICHT autoREcrawl

Beitragvon Lotus » Mi Jun 03, 2009 8:19 pm

Danach könntest du noch den Such-Cache gezeigt bekommen, falls du davor gesucht hast. Dann einfach die Ranking-Config Seite einmal aufrufen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: autoCrawl NICHT autoREcrawl

Beitragvon liebel-lab » Do Okt 15, 2009 11:35 am

apfelmaennchen hat geschrieben:Ich will keinen vom Mitmachen abhalten....aber AutoReCrawl zieht selbstverständlich mit den Bookmarks in die neue DB um - die autoReCrawl.conf ist also schon fast tot.
In diesem Zuge überlege ich noch, ob ich AutoReCrawl von den Foldern entkopple oder zumindest zusätzlich eine Knüpfung an einzelne URLs anbiete ....

Gruß!
apfelmaennchen


...hm neugierige Frage...der post war schon vor einiger zeit ;-) ...hat sich in dieser richtugn etwas getan?
ich waere massivster nutzer von jeder neuen "autoREcrawl" funktionalitaet... ;-) ..
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: autoCrawl NICHT autoREcrawl

Beitragvon apfelmaennchen » Do Okt 15, 2009 3:07 pm

liebel-lab hat geschrieben:...hm neugierige Frage...der post war schon vor einiger zeit ;-) ...hat sich in dieser richtugn etwas getan?
ich waere massivster nutzer von jeder neuen "autoREcrawl" funktionalitaet... ;-) ..


Theoretisch war alles schon so gut wie fertig.....leider hab ich seit einem etwas längeren Moment so gut wie gar keine Zeit für YaCy aufbringen können.Aufgrund der vielen Refactorings in letzter Zeit, kann ich den Code jetzt auch nicht einfach einchecken, da doch einige Anpassungen notwendig wären, sorry - ich hätte das im Sommer einfach fertig machen sollen :-(

Ich hoffe ja immer noch auf einen ruhigen Winter ;-)

Gruß!
apfelmaennchen
apfelmaennchen
 
Beiträge: 429
Registriert: Mo Aug 20, 2007 7:06 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste