Anzahl gecrawlter Dokumente / Job

Ideen und Vorschläge sind willkommen.

Anzahl gecrawlter Dokumente / Job

Beitragvon freak » Di Okt 15, 2013 3:05 pm

Ist es möglich, das man in der Prozess Liste ( /Table_API_p.html ) für Jobs des Typs crawler noch eine Spalte angezeigt bekommt, aus der hervor geht, wieviel Seiten der CrawlJob beim letzten Lauf gecrawlt hat bzw. wieviel Seiten (neu) indexiert wurden?

Gerade wenn man die Jobs automatisiert über den Scheduler starten lässt bzw. die Jobs von extern via wget startet, wäre es von Vorteil zu sehen, was die Jobs an neuen Seiten verarbeitet haben. Man hätte damit auch gleich eine gewisse Kontrolle darüber, ob man die Jobs mit den richtigen Parametern aufgerufen hat.

Grüße
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Anzahl gecrawlter Dokumente / Job

Beitragvon Orbiter » Di Okt 15, 2013 5:01 pm

Diese Information könnte man aufgrund einer Änderung im Postprocessing nun tatsächlich erhalten, da wird das Postprocessing ja pro Crawl einzeln angestossen, und das weiss auch wieviele Dokumente dazugehören.
Nur weiss ich momentan noch nicht wie und wo ich das speichern werde, mal sehen.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast