[INVALID] Auto-Recrawls klappen nur sehr selten

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

[INVALID] Auto-Recrawls klappen nur sehr selten

Beitragvon Quix0r » Di Apr 20, 2010 2:59 pm

Auto-Recrawls klappen nur sehr selten. Zudem konnte ich in der Bookmark-Verwaltung keinen Folder eintragen, dieser wurde immer auf die Tags gesetzt:
- Crawl-Startup auf URL http://www.some-url-here.invalid gesetzt (natuerlich eine gueltige Adresse)
- Das Laden der URL (per AJAX-Request) klappt sehr selten bis gar nicht im Epiphany-Browser
- "Create Bookmark" angetickt, bei fehlendem Titel diesen einen Dummy gegeben, Haken bei [x] Use gesetzt, Folder auf /autoReCrawl/weekly eingestellt
- Crawling Depth: 8
- Must-Match Filter: [x] Restrict to start domain (das sollte guegend URLs geben)
- Re-crawl known URLs: [x] Use, If older than: 7 Days
- Accept URLs with '?' / dynamic URLs: [x]
- Store to Web Cache: [x]
- Policy for usage of Web Cache: [x] If fresh
- Do Local Indexing: Index text: [x] Index Media: [x]
- Do Remote Indexing: [x] "Bla blub bla" als Grund
- Exclude static Stop-Words: [x]
- Alle anderen Einstellungen nicht angefasst.

Unter http://localhost:8080/CrawlProfileEditor_p.html taucht das Profil auf, jedoch nur mit Thread-Name www.some-url-here.invalid und nicht /autoReCrawl/weekly/www.some-url-here.invalid.

Der Bookmark wie gesagt laesst sich zwar editieren (oder nachtraeglich anlegen), aber unter Folder kann nicht /autoReCrawl/weekly eingetragen werden, es wird beim erneuten Editieren die Tags unter Folder gezeigt.

Hier der dazugehoehrige API-Call:
Code: Alles auswählen
I 2010/04/20 15:47:32 APICALL /Crawler_p.html?crawlingDomMaxPages=10000&range=domain&crawlOrder=on&intention=Nochmal%20das%20Linkverzeichnis...&sitemapURL=&crawlingQ=on&crawlingMode=url&crawlingURL=http://www.csearch.de&crawlingFile=&mustnotmatch=&crawlingFile%24file=&crawlingstart=Start%20New%20Crawl&mustmatch=.*&createBookmark=on&bookmarkFolder=/autoReCrawl/weekly&xsstopw=on&indexMedia=on&storeHTCache=on&crawlingIfOlderUnit=day&cachePolicy=iffresh&indexText=on&crawlingIfOlderCheck=on&bookmarkTitle=csearch.de%20-%20Gut%20gefunden!&crawlingDomFilterDepth=1&crawlingIfOlderNumber=7&crawlingDepth=8

Verwendet wird Revision 6836.

Edit: Ich bin dem Mysterium weiter auf die Spur gekommen. Sowohl die Start-URL des Crawls als auch der Bookmark (mit Folder=/autoReCrawl/foo) muessen exakt uebereinstimmen. Nichtmal das abschliessende Slash (/) darf an der URL fehlen bzw. muss bei beiden URLs dann fehlen.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron