Postprocessing

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Postprocessing

Beitragvon zottel » Fr Okt 24, 2014 11:09 pm

Wenn ich meinen yacy so auf Crawler_p beobachte, sehe ich momentan, dass er mir im Postprocessing-Bereich mitteilt, dass er noch 10307 Minuten oder mehr als sieben Tage brauchen wird, um was auch immer da aufgelaufen ist abzuarbeiten.

Was ist dieses Postprocessing eigentlich? Was wird da gemacht? Und wäre es ratsam, bei so einem Wert erstmal nichts neues mehr zu crawlen?

Momentan lasse ich mit Hilfe des GreaseMonkey-Skripts alles, was ich besuche, zwei Level tief crawlen. Da können schonmal über 40.000 Einträge im Local Crawler zusammenkommen.

Sollte ich das zurückschrauben?

EDIT: Wenn mein Crawler gut unterwegs ist, schafft er über 800 PPM. Beim Postprocessing werden mir aber gerade 69 PPM angezeigt. Das kann so eigentlich nicht gut zusammenspielen, oder?
zottel
 
Beiträge: 51
Registriert: Mi Jan 16, 2013 3:04 pm

Re: Postprocessing

Beitragvon Gucky » Mi Okt 29, 2014 10:07 am

Ich habe das gleiche Problem. Das Postprocessing startet bei mir und irgendwann ist yacy dann garnicht mehr erreichbar.
Dennoch habe ich es drei Tage durchlaufen lassen. Mit dem Ergebnis, dass der Postprocessing Prozess (nachdem ich yacy gezwungenermaßen killen musste) wieder von vorne beginnt.
In einem früheren Post schrieb Orbiter, dass Postprocessing nicht unbedingt notwendig ist. Kann man es irgendwo deaktivieren?
Gucky
 
Beiträge: 4
Registriert: Mo Okt 06, 2014 11:43 am

Re: Postprocessing

Beitragvon Orbiter » Mi Okt 29, 2014 2:14 pm

das postprocessing kann man durch entfernen des Feldes process_sxt im Index Schema auschalten. Ich hatte die Hoffnung dass dieses Feature nur eine Kinderkrankheit hat und ich diese schnell fixen kann, deswegen war und ist das Feld per default an. Wenn ich das Problem nicht beheben kann wird es irgendwann per default aus sein, was aber schade wäre weil die Funktion vielversprechende Rankingmöglichkeiten eröffnet.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Postprocessing

Beitragvon Gucky » Mi Okt 29, 2014 6:29 pm

Danke für die schnelle Rückmeldung. Ich habe es er einmal ausgeschaltet.
Mach bitte weiter mit deiner tollen Arbeit. Irgendwann wird es bestimmt reibungslos funktionieren ;)
Gucky
 
Beiträge: 4
Registriert: Mo Okt 06, 2014 11:43 am

Re: Postprocessing

Beitragvon Adama » Mi Okt 29, 2014 10:08 pm

Sorry aber wo genau kann man das ausschalten?????

ch finde das nicht.

Diba
Adama
 
Beiträge: 22
Registriert: Mo Jul 14, 2014 10:48 pm
Wohnort: Köln

Re: Postprocessing

Beitragvon Orbiter » Do Okt 30, 2014 12:13 am

es ist nicht ein 'normaler' Schalter sondern ein Feld im Index:

- öffne /IndexSchema_p.html
- mach den Haken bei process_sxt weg
- 'Set' (ganz unten) drücken.

Wenn das Feld nicht mehr benutzt wird, läuft auch kein Postprocessing mehr, auch nicht bei Dokumenten die das Feld noch haben.
Das Postprocessing läuft auch sowieso nicht wenn weniger als 600MB RAM zum Zeitpunkt des Startes da sind oder der Load > 2.5 ist. D.h. bei einer Standardkonfiguration läuft es nie, weil da nur 600MB zugewiesen sind.

Ihr seht ggf. dass da noch viele andere Felder ausgeschaltet sind, die sind aber für Peer-to-Peer Websuche nicht unbedingt notwendig oder sinnvoll. Man kann sie an machen um z.B. dann die Felder im Ranking zu benutzen, siehe /RankingSolr_p.html. Manche Felder sind dort, weil ich Kunden haben die das für einen bestimmten Zweck benutzen wollen. Ich entscheide dann immer, ob die Felder dann für die Allgemeinheit sinnvoll und wichig sind, oder ob es strategisch gut ist weil sich aus der Anwesenheit bestimmter Informationen dann irgenwann für alle einen Vorteil ergibt. Beim Postprocessing ist das eben so eine Sache, das steht auf der Kippe: es ist sehr sinnvoll, aber auch sehr (CPU-) kostspielig. Es macht aber nichts das auszumachen, das hat auf keinen Fall einen Nachteil für die P2P-Suche.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Postprocessing

Beitragvon zottel » Sa Nov 15, 2014 12:43 am

Nachtrag:

Mein yacy hat in Sachen Indexierung immer zu bestimmten Zeiten (wenn ich online bin) sehr viel zu tun und ist zu anderen Zeiten mehr oder minder idle (zumindest der Crawler). Er hat das Postprocessing dann in deutlich weniger als sieben Tagen geschafft und hat auch nie mehr so hohe Werte erreicht, vmtl. weil Remote Crawling mittlerweile wieder aus ist (hat zu schnell dazu geführt, dass meiner Node der Speicher ausging).
zottel
 
Beiträge: 51
Registriert: Mi Jan 16, 2013 3:04 pm

Re: Postprocessing

Beitragvon Orbiter » Sa Nov 15, 2014 1:32 am

ich habe in den letzten 16 Tagen noch erhebliche Fortschritte beim Postprocessing machen können, zuletzt heute noch ein Bugfix.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast