CRAWLER CoreCrawl: online caution, omitting processing

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon dulcedo » Do Dez 18, 2008 4:27 am

Ist eine ganz seltsame Sache: Der Peer läuft schon eine Weile ohne als Proxy benutzt zu werden, nun habe ich auf dem selben Rechner Firefox3 auf localhost:8080 als Proxy verwiesen, kann auch normal browsen.

Aber seitdem tut der Peer nichts mehr, zumindest nichts was auf grossartige Festplattenaktivität schliessen lässt, die Speicherkurve bleibt auch fast konstant kurz oberhalb des Minimalwertes.
Entdecke das heute morgen zufällig, probiere ein bischen rum, neustart, svn-gecheckt, update, das einzige auffällige mehrmals eben diese Meldung:
"D 2008/12/18 03:59:00 CRAWLER CoreCrawl: online caution, omitting processing'

(W32, SVN war 5390, jetzt 5394)

Habe hier im Forum gesucht, ein Beitrag vom April, kann ich aber nicht in Zusammenhang bringen:
viewtopic.php?f=6&t=1042&p=6959&hilit=D+2008%2F12%2F18+03%3A59%3A00+CRAWLER+CoreCrawl%3A+online+caution%2C+omitting+processing#p6959

Schalte ich nun bei dieser einer Firefox/Proxy-Installation den Proxy wieder ab und surfe einmal eine Seite an (localhost) geht wieder alles ganz normal!

Edit: Ich habe grade mal ausprobiert in der Proxykonfiguration die Ausnahme 'localhost,127.0.0.1' durch 'localhost' oder die echte ip zu ersetzen, selbes Fehlerbild.

Edit2: In SVN 5394 scheint die remote-crawl "bremse" nicht mehr zu funktionieren, weil er volles tempo remote crawlt (einstellung: 20ppm, aktuell 350ppm).
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon lulabad » Do Dez 18, 2008 8:09 am

Das ist eine Einstellungssache.
Auf der Performance Seite ganz unten gibt es die Einstellungen für: Online Caution Settings
Dort siehts du die Werte, die der Indexer wartet, bis er wieder weiter macht.
Wenn du also den Proxy benutzt, wartet der Indexer 15 Sekunden bis er wieder weiter macht. Solange keine weitere aktivität über den Proxy statt gefunden hat.

Du kannst hier die Werte runterschrauben wenn du möchtest.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon dulcedo » Do Dez 18, 2008 11:04 am

lulabad hat geschrieben:Wenn du also den Proxy benutzt, wartet der Indexer 15 Sekunden bis er wieder weiter macht. Solange keine weitere aktivität über den Proxy statt gefunden hat.


Ok, das ist verstanden, ich lasse ja viele Statusseiten im Browser automatisch reloaden, meistens 5 Sekunden Intervall, das beisst sich natürlich und der crawler kommt nie dran.

Sollte man vielleicht auf der Stautsseite als Kleingedrucktes plazieren?
Oder den automatischen Reload standardmässig deaktivieren. Könnte man in Abhängigkeit zu adminAccountForLocalhost setzen.
Ohne deinen Tipp wär ich da nie draufgekomen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Lotus » Fr Dez 19, 2008 1:20 pm

dulcedo hat geschrieben:Sollte man vielleicht auf der Stautsseite als Kleingedrucktes plazieren?

Du meinst die Meldung, dass er gerade im Online Caution Modus ist?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon dulcedo » Fr Dez 19, 2008 1:57 pm

Nein!
Standardmässig ist ja die Konfiguration über Localhost aktiv. Ebenso ein Delay von 15 Sekunden.
Belässt man diese Einstellungen und schaltet den Proxy ein, das wird ja empfohlen, dann läuft YaCy eben in diesen "deadlock", alle 5 Sekunden ein reload auf den Statusseiten, und der Wert zum Pausieren des Indexers liegt aber höher, ergo: es wird nie indexiert.

Also sollte man diese Tatsache melden dass sich die beiden Werte beissen, oder noch besser Proxzugriffe vom localhost verhindern, falls adminAccountForLocalhost=true (auch Standard).

Natürlich kann ich jetzt, da ich es weiss, die Werte entsprechend einstellen oder automatischen Browser-Reload verbieten, aber ich wette die Hälfte aller Anwender wundert sich warum YaCy in dem Fall dann nichts mehr tut.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Lotus » Fr Dez 19, 2008 4:30 pm

Also ist das Problem, dass für den Peer-Zugriff der Proxy benutzt wird. In meinem Firefox ist localhost (per default?) vom Proxy ausgeschlossen. Wenn die /autoconfig.pac benutzt wird ist das auch der Fall.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Quix0r » Fr Apr 10, 2009 12:39 am

Hmmm, bei mir schnurrt der Indexer (PPM sehr flach) auch nicht richtig los, obwohl ich viele Crawl-Profile angelegt habe (=Crawler-Startpunkte). Ich habe nun unter http://127.0.0.1:8080/Performance_p.html die Online Caution Settings alle auf 0 gestellt und jetzt indiziert er etwas mehr, bricht aber auch wieder ein.

Das kann aber nicht angehen. Denn unter http://127.0.0.1:8080/CrawlProfileEditor_p.html habe ich massig Eintraege drinne. Oder verstehe ich hier etwas komplett falsch? :?

VG,
Quix0r (der die vielen Fragen stellt... ;) )
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Orbiter » Fr Apr 10, 2009 7:52 am

für langsames crawlen kann es viele andere Gründe geben, allen voran forcierte Pausen aufgrund von Vorgaben zur Latenz des Targets. Die Latenzmessung ist was neues in YaCy, da wird gemessen wie lange ein Request vorher brauchte, und der Wert gemischt mit Heuristiken zur Anzahl von vorherigen Zugriffen und einem vorgegebenen Crawl-Delay. Alles zusammen ist dann ein forcierter Crawl-Delay, und sowas sollte dann im Log stehen wenn es nur langsam weiter geht.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Quix0r » Fr Apr 10, 2009 12:53 pm

Trotz der vielen Crawl-Profile? Werden diese nicht "gleichzeitig" abgearbeitet? Dass heisst, wenn ein Crawl pausiert, macht der naechste weiter?
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Quix0r » Di Apr 21, 2009 9:31 am

Erhalte nun wieder viel die Meldung im Log. Der Loader ist praken dicht (100% ausgelastet), aber PPM ist auf 0 runter. Irgentwas stimmt hier nicht. Bin derzeit auf Weiterbildung und komme nur per Web an das Server-Log ran. Wo nach sollte ich suchen?

0.750/05841 ist noch installiert.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: CRAWLER CoreCrawl: online caution, omitting processing

Beitragvon Quix0r » Mo Jan 25, 2010 9:36 am

Kam hier schon lange nicht mehr vor. Hab bei allen "online caution"-Eintraegen 10 drinne.
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron