autoReCrawl speichet Filter nicht

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

autoReCrawl speichet Filter nicht

Beitragvon frankenstein91 » Fr Mai 14, 2010 8:59 am

Hallo
Hab ein ein Problem.
Und zwar gibt es ja die Möglichkeit über die Lesezeichen einen autoReCrawl zu setzten, das Problem was ich jetzt damit habe ist der Filter und die CrawlTiefe. diese werden nicht gespeichert.
Kann man das irgendwie ändern?
Kann leider kein Screenshot mit posten weil ich es über den Profiel Editor gefixt habe was aber auch nicht gespeichert wird wenn der ReCrawl erneut gestartet wird.
frankenstein91
 
Beiträge: 7
Registriert: Di Mär 16, 2010 8:20 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Orbiter » Fr Mai 14, 2010 9:27 am

ja....
Das ist ein Designproblem. Die Recrawl-Technik wird von mir (seit einigen Monaten..) überarbeitet und hat bislang in das 'Steering'-Interface gemündet. Klick das mal an, da siehst du die URL mit der du den Crawl gestartet hast. Die Vorgehensweise die ich momentan empfehlen kann ist es, die URL die du dort siehst zu kopieren und mit einem wget oder curl in einen cronjob zu übernehmen.
In einem weiteren Feature in YaCy wird ein Scheduler den Aufruf dieser URL selber übernehmen, ist noch nicht nicht fertig. Recrawls also moment nur so:

- ohne Filter mit den Bookmarks
- mit Filter mit 'selbstgemachten' cronjobs.

Ich hoffe den Scheduler bis zum Linuxtag fertig zu haben.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: autoReCrawl speichet Filter nicht

Beitragvon frankenstein91 » Fr Mai 14, 2010 9:35 am

Wäre jetzt gut zuwissen welche Linuxtage
frankenstein91
 
Beiträge: 7
Registriert: Di Mär 16, 2010 8:20 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Orbiter » Fr Mai 14, 2010 10:23 am

Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: autoReCrawl speichet Filter nicht

Beitragvon dulcedo » Fr Mai 14, 2010 4:21 pm

Man kann solange solche Recrawl-Aufrufe flexibel über ein eigenes Script oder kleine Applikation zusammenstellen, über http://www.yacy-websuche.de/wiki/index. ... fileEditor stehen exisiterende crawl-profile als XML zur Verfügung. Dann entsprechend die Filter anpassen und direkt oder per sheduler aufrufen lassen.

Wenn es darum geht Netzbereiche oder domains mehr in die Tiefe statt in die Breite zu crawlen sind die einfachen Filter des crawl-starts meistens nicht aussrechend sodass man lieber viele crawls mit geringer Tiefe startet. Deren Startpunkte ergeben sich mittels einer Logik (nach Einsatzzweck) aus den Ergebnissen eines initialen crawls. Was hierfür noch fehlt ist eine XML-Ausgabe von /CrawlResults.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: autoReCrawl speichet Filter nicht

Beitragvon frankenstein91 » Sa Mai 15, 2010 3:24 pm

hab es jetzt über die autoRecrawl config gelöst und mir dort für die seiten einen eintrag gemacht
frankenstein91
 
Beiträge: 7
Registriert: Di Mär 16, 2010 8:20 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon frankenstein91 » Sa Mai 22, 2010 12:52 pm

so das Problem geht weiter.
Die autoRecrawl config wurde von Yacy zurück gesetzt (ohne Update oder ähnliches).
frankenstein91
 
Beiträge: 7
Registriert: Di Mär 16, 2010 8:20 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon markus » Di Jun 29, 2010 8:51 am

Hi,

gibt es dazu schon was neues? Wir haben genau das gleiche Problem. :-(
markus
 
Beiträge: 11
Registriert: Do Aug 27, 2009 1:53 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Orbiter » Di Jun 29, 2010 9:22 am

als Workaround empfehle ich folgendes:
Schau in die Tabelle unter http://localhost:8080/Table_API_p.html
Dort stehen die Crawl Starts drin mit ihren URLs.
Nimm einfach die (passende) Start-URL und lasse sie von einem cronjob per wget oder curl laden.

Die bisherige autoReCrawl Architektur wird zur Zeit nicht mehr gepflegt und soll durch einen Job in YaCy abgelöst werden, der genau dieses Laden der Start-URL von YaCy aus regelt. Ist aber noch nicht fertig (der 'Scheduler', s.o). Den externen cronjob solltest du aber leicht machen können.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: autoReCrawl speichet Filter nicht

Beitragvon disi » Mo Aug 16, 2010 11:06 am

Boa, ich Vollpfosten. Seit ich Yacy installiert hatte, frage ich mich wieso das autorecrawl nicht geht -.-
Danke, ich nehme dann den normalen cronjob und schicke nen curl an yacy :)
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon disi » Fr Aug 27, 2010 9:51 am

Wow, habe eben mal auf 7076 aktualisiert...
Bild
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Orbiter » Fr Aug 27, 2010 10:48 am

ja, hab den alten re-crawler völlig überarbeitet. Das heisst: vom alten re-crawler gibts nichts mehr und der Mechanismus ist nun ganz neu. Basis ist das API-Recording der nun einen Scheduler bekommen hat. Das macht es möglich dass quasi alle Steuervorgänge in YaCy nun ein Scheduling bekommen können. Die Seite mit dem Screenshot zeigt eine gefilterte Liste des API-Schedulers, der nur crawling Prozesse zeigt.

zum Ursprungsposting: 'speicher xyz nicht' gibts nichts mehr, alle Originalstarts werden komplett geklont wiederholt.

Wenn man nun einen Crawl ohne Scheduling gestartet hat, kann man da auf diese Klappbox gehen und ein Scheduling nachziehen.
Man kann den Scheduler aber auch gleich beim Crawl-Start mit triggern, dazu habe ich die Scheduler-Settings mit dem re-crawl Parameter 'verheiratet', der Parameter wurde ja immer missverstanden aber er gehört als technische Komponente zum Scheduling ja dazu.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: autoReCrawl speichet Filter nicht

Beitragvon disi » Fr Aug 27, 2010 10:57 am

Das ist eine super Sache. Vielen Dank dafuer :)

Meiner Meinung nach ist eben genau Recrawling ein wesentlicher Bestandteil von Yacy. Denn man moechte ja bei der Seite auf dem neuesten Stand bleiben!
Ich werde das mal beobachten, ob ich Fehler entdecke...

//edit: eine Frage noch... kannst du die locale Uhrzeit irgendwo ueber den Scheduler pflanzen? Das wuerde ungemein helfen, wenn der Server in einer anderen Zeitzone steht... :idea:
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Do Apr 21, 2011 8:47 pm

Muss man an curl bestimmte Parameter mit übergeben oder reicht einfach

Code: Alles auswählen
curl http://127.0.0.1:8090/Crawler_p.html?createBookmark=on&bookmarkFolder=/crawlStart&crawlingDomMaxPages=10000&intent
ion=&range=wide&recrawl=nodoubles&sitemapURL=&repeat_time=7&crawlingQ=on&crawlingIfOlderUnit=
day&cachePolicy=nocache&indexText=on&crawlingMode=url&crawlingURL=http://www.adresse.tld   usw...


im Cronjob?
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Quix0r » Do Apr 21, 2011 10:49 pm

Wenn du die neueren Revisionen hast, wird das per Peer-Steering (siehe Adminbereich) fuer dich von YaCy aus selber getan. Du musst halt nur fuer bestehende Crawl-Jobs den Scheduler aktivieren und das war's. Wenn du dennoch per URL/externen Cronjob dies machen willst, ich meine, das muss so reichen. :)
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Mi Apr 27, 2011 8:06 pm

Wurde der "Bug" gefixt dass der Scheduler jetzt doch funktioniert und man die Crawls nicht mehr über die curl-Methode gestartet werden müssen?
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Mi Mai 11, 2011 7:06 pm

Habe nämlich über 30 MB an Logfiles nach dem Schlagwort "scheduled re-crawl" bzw. APICALL durchforstet und keine Bestätigung dafür gefunden, dass die Crawls je nach eingestellter Wiederholfrequenz (bei mir 30 Tage) automatisch wiederholt werden :-(
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Orbiter » Mi Mai 11, 2011 11:00 pm

es gab einen Bug der gefixt sein sollte.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Do Mai 12, 2011 5:08 pm

In v0.99/7708 schon fixed oder muss ich auf die 7711 hoch?

Danke
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Lotus » Do Mai 12, 2011 7:19 pm

Nach 7708 gab es in dem Bereich keine Änderungen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Sa Mai 28, 2011 8:52 pm

Ich glaube ich weiß warum: Der automatische Re-Crawl funktioniert einwandfrei und wird nach meinen Beobachtungen im LOG auch zum festgelegten Zeitpunkt ausgeführt, nur er crawlt deshalb nicht, weil eine Meldung kommt "redirection to double content" und eine HTTP-Fehlermeldung mit http return code = 302. Kann es sein, dass der Crawl nicht wiederholt wird, weil der bereits indexierte Inhalt (liegt über 30 Tage zurück) noch als aktuell/zu neu eingestuft wird und der Crawl-Task deshalb nicht wiederholt wird?
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Mo Jun 06, 2011 8:20 pm

LA_FORGE hat geschrieben:Ich glaube ich weiß warum: Der automatische Re-Crawl funktioniert einwandfrei und wird nach meinen Beobachtungen im LOG auch zum festgelegten Zeitpunkt ausgeführt, nur er crawlt deshalb nicht, weil eine Meldung kommt "redirection to double content" und eine HTTP-Fehlermeldung mit http return code = 302. Kann es sein, dass der Crawl nicht wiederholt wird, weil der bereits indexierte Inhalt (liegt über 30 Tage zurück) noch als aktuell/zu neu eingestuft wird und der Crawl-Task deshalb nicht wiederholt wird?


Ich habs nochmal mit ein paar anderen Seiten als Crawl-Starting-Point probiert, wo ich auch den Scheduled-Recrawl auf 30 Days gesetzt hatte. Wie bereits oben geschrieben, der re-crawl funktioniert, der Crawl wird nach 30 Tagen wiederholt, aber im Log steht dann "redirection to double content" und ein http return code 302 erscheint und der Crawl wird nicht ausgeführt, da m. E. der Content der vor 30 Tagen gecrawlten Seite(n) als "zu neu" eingestuft wird :-( Kann das bitte mal einer der Entwickler debuggen?

Vielen Dank
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Orbiter » Mi Jun 22, 2011 5:32 pm

bei einem Crawl Start wird vor dem Start immer die Start-URL gelöscht damit es eine Chance gibt dass der Crawler dann bei der ersten URL auf neuen Content stößt. Wenn aber die Start-URL auf eine andere URL redirected funktioniert dieser Trick nicht. Dann zählt einzig und alleine ob diese URL dann als 'stale' gilt. Diese Überprüfung wird nur gemacht wenn neben der Option re-load ein Zeitraum angegeben wird der verstrichen sein muss damit die Seite 'stale' ist. Default ist eine Woche. Daher sollte das gehen.

Debuggen ist schwer, da brauch ich die URL und die Zeit muss auch verstreichen... da kann ich nur ein Code Review machen. Mache ich mal (gerade ist wenig Zeit)
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Di Jul 05, 2011 7:49 am

Achso. Wäre aber super, wenn du es mal mit auf den Bugtracker nehmen könntest. Hatte gerade wieder ein

Code: Alles auswählen
I 2011/07/05 08:42:57 PLASMA Scheduler executed api call, response 503


bei einem scheduled re-crawl :-( und der re-crawl wurde nicht angestoßen :-(

Vielen Dank
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon Lotus » Di Jul 05, 2011 9:28 am

@LA_FORGE: habe ihn als Bug 46 eingetragen: http://bugs.yacy.net/view.php?id=46
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Di Jul 05, 2011 12:28 pm

Vielen Dank
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Mo Sep 26, 2011 10:20 pm

LA_FORGE hat geschrieben:
LA_FORGE hat geschrieben:Ich glaube ich weiß warum: Der automatische Re-Crawl funktioniert einwandfrei und wird nach meinen Beobachtungen im LOG auch zum festgelegten Zeitpunkt ausgeführt, nur er crawlt deshalb nicht, weil eine Meldung kommt "redirection to double content" und eine HTTP-Fehlermeldung mit http return code = 302. Kann es sein, dass der Crawl nicht wiederholt wird, weil der bereits indexierte Inhalt (liegt über 30 Tage zurück) noch als aktuell/zu neu eingestuft wird und der Crawl-Task deshalb nicht wiederholt wird?


Ich habs nochmal mit ein paar anderen Seiten als Crawl-Starting-Point probiert, wo ich auch den Scheduled-Recrawl auf 30 Days gesetzt hatte. Wie bereits oben geschrieben, der re-crawl funktioniert, der Crawl wird nach 30 Tagen wiederholt, aber im Log steht dann "redirection to double content" und ein http return code 302 erscheint und der Crawl wird nicht ausgeführt, da m. E. der Content der vor 30 Tagen gecrawlten Seite(n) als "zu neu" eingestuft wird :-( Kann das bitte mal einer der Entwickler debuggen?

Vielen Dank




hmm..

Aktuell wieder das Problem:

Code: Alles auswählen
I 2011/09/26 23:17:26 LOADER CRAWLER Redirection detected ('HTTP/1.0 301 Moved Permanently') for URL http://www.freebsd.org/
I 2011/09/26 23:17:26 LOADER CRAWLER ..Redirecting request to: http://www.freebsd.org/
I 2011/09/26 23:17:26 Rejected URL http://www.freebsd.org/ - redirection to double content (http return code = 301)


Ich habe http://www.freebsd.org aber zuletzt im April gecrawled, von daher sollte das doch jetzt funktionieren? :-(
Zuletzt geändert von LA_FORGE am Fr Dez 16, 2011 7:18 pm, insgesamt 2-mal geändert.
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Di Sep 27, 2011 7:54 pm

Ich konnte es eingrenzen: Es tritt definitiv nur dann auf, wenn man den Remote-Proxy aktiviert hat. Dabei handelt es sich bei mir um einen vorgeschaltetem Squid, an dessen Cache-Configuration aber nichts geändert wurde, d. h. der Content der vom Proxy kommt wird anscheinend als aktuell eingestuft (obwohl ich die Seite zuletzt im April aufgerufen habe) :-(
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Mi Okt 26, 2011 7:17 pm

Hmm... sehr komisch. Jetzt habe ich den Remote Proxy deaktiviert und den Index vorher komplett gelöscht und bin auf die SVN 8004 hoch, jetzt kommt:

Code: Alles auswählen
I 2011/10/26 20:16:34 APICALL /Crawler_p.html?crawlingDomMaxPages=10000&range=domain&intention=&sitemapURL=&crawlingQ=on&crawlingMode=url&crawlingURL=http://www.pcking.de&crawlingFile=&mustnotmatch=(*.jpg.*%7C*.gif.*%7C*.bmp.*%7C*.png.*)&countryMustMatchSwitch=false&crawlingstart=Start%20New%20Crawl&mustmatch=.*&repeat_unit=seldays&bookmarkFolder=/crawlStart&indexMedia=on&recrawl=scheduler&repeat_time=8&crawlingIfOlderUnit=day&cachePolicy=nocache&indexText=on&ipMustmatch=.*&bookmarkTitle=&ipMustnotmatch=&crawlingIfOlderNumber=7&crawlingDepth=8&countryMustMatchList=AD%2CAL%2CAT%2CBA%2CBE%2CBG%2CBY%2CCH%2CCY%2CCZ%2CDE%2CDK%2CEE%2CES%2CFI%2CFO%2CFR%2CGG%2CGI%2CGR%2CHR%2CHU%2CIE%2CIM%2CIS%2CIT%2CJE%2CLI%2CLT%2CLU%2CLV%2CMC%2CMD%2CMK%2CMT%2CNL%2CNO%2CPL%2CPT%2CRO%2CRU%2CSE%2CSI%2CSJ%2CSK%2CSM%2CTR%2CUA%2CUK%2CVA%2CYU

I 2011/10/26 20:16:35 BALANCER re-fill of domain stacks; fileIndex.size() = 1, domainStacks.size = 1, collection time = 2 ms

I 2011/10/26 20:16:35 LOADER CRAWLER Redirection detected ('HTTP/1.1 302 Found') for URL http://www.pcking.de/

I 2011/10/26 20:16:35 LOADER CRAWLER ..Redirecting request to: http://www.pcking.de/eshop.php

I 2011/10/26 20:16:35 Rejected URL http://www.pcking.de/eshop.php - redirection to double content (http return code = 302)


Wieso 'redirection to double content' ?? Ich habe doch den Index vorher komplett gelöscht & Peer neu gestartet.
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Do Okt 27, 2011 12:10 am

Ich glaube es ist ein Timeout-Problem, er wartet einfach nicht lang genug :-(

Welches Timeout kann ich in dem Fall hochsetzen?? Es gibt ja mehrere unter 'Advanced Properties'.
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon sixcooler » Do Okt 27, 2011 1:03 am

Hallo LA_FORGE,

ein Timeout-Propblem kann ich da nicht erkennen - läuft doch alles recht flott.
Es ist eher so wie Orbiter schon oben beschrieben hatte:
Von http://www.pcking.de wird vom Server zu http://www.pcking.de/eshop.php weitergeleitet.
http://www.pcking.de/eshop.php ist aber schon vor zu kurzer zeit gecrawlt worden also wird abgebrochen.

Versuche doch mal als Startpunkt gleich http://www.pcking.de/eshop.php zu nutzen.

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Do Okt 27, 2011 7:23 pm

Vielen Dank. Habe ich versucht. Außerdem habe ich vorher das komplette DATA-Verzeichnis gelöscht (außer die yacy.conf) und den Peer neu gestartet.

Jetzt kommt:

Code: Alles auswählen
I 2011/10/27 20:29:47 BALANCER re-fill of domain stacks; fileIndex.size() = 1, domainStacks.size = 1, collection time = 2 ms
I 2011/10/27 20:29:47 Rejected URL http://www.pcking.de/eshop.php - no response body (http return code = 503)


Hab ne sehr langsame Inet-Verbindung mit schlechten Latenzen an diesem von mir betreuten Peer (Ist nicht mein eigener Peer 'endeavour' ).

An welchen Timeout-Variablen kann ich schrauben? :-)
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon sixcooler » Do Okt 27, 2011 8:07 pm

Hallo LA_FORGE,

ich denke immer noch nicht das es ein Timeout-Problem ist.
Solange (sogar recht zügig) ein Return-Code kommt, ist das ja schon eine Antwort des Servers - nur halt keine die den Crawl weiterlaufen lässt.
Wenn der Peer in ein Timeout läuft, steht das in der Regel auch so im Log.

Den Timeout könnte man unter /Settings_p.html?page=crawler setzen - aber wie gesagt in diesem Fall würde es nichts bringen, denke ich.
Gehen denn andere Sites zu crawlen?

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Sa Okt 29, 2011 4:12 pm

LA_FORGE hat geschrieben:Achso. Wäre aber super, wenn du es mal mit auf den Bugtracker nehmen könntest. Hatte gerade wieder ein

Code: Alles auswählen
I 2011/07/05 08:42:57 PLASMA Scheduler executed api call, response 503


bei einem scheduled re-crawl :-( und der re-crawl wurde nicht angestoßen :-(

Vielen Dank



Ich nehme alles zurück. Es war mein Fehler: Ich hatte etwas zu viel im Crawl Profile Editor herumgespielt :-)

Die automatischen Recrawls funktionieren einwandfrei. Ganz großes SORRY

Das Ticket dazu auf dem Bugtracker kann gelöscht werden, aber dafür dashier bitte nochmal aufmachen.

Danke
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » Fr Dez 16, 2011 7:21 pm

LA_FORGE hat geschrieben:
LA_FORGE hat geschrieben:
LA_FORGE hat geschrieben:Ich glaube ich weiß warum: Der automatische Re-Crawl funktioniert einwandfrei und wird nach meinen Beobachtungen im LOG auch zum festgelegten Zeitpunkt ausgeführt, nur er crawlt deshalb nicht, weil eine Meldung kommt "redirection to double content" und eine HTTP-Fehlermeldung mit http return code = 302. Kann es sein, dass der Crawl nicht wiederholt wird, weil der bereits indexierte Inhalt (liegt über 30 Tage zurück) noch als aktuell/zu neu eingestuft wird und der Crawl-Task deshalb nicht wiederholt wird?


Ich habs nochmal mit ein paar anderen Seiten als Crawl-Starting-Point probiert, wo ich auch den Scheduled-Recrawl auf 30 Days gesetzt hatte. Wie bereits oben geschrieben, der re-crawl funktioniert, der Crawl wird nach 30 Tagen wiederholt, aber im Log steht dann "redirection to double content" und ein http return code 302 erscheint und der Crawl wird nicht ausgeführt, da m. E. der Content der vor 30 Tagen gecrawlten Seite(n) als "zu neu" eingestuft wird :-( Kann das bitte mal einer der Entwickler debuggen?

Vielen Dank




hmm..

Aktuell wieder das Problem:

Code: Alles auswählen
I 2011/09/26 23:17:26 LOADER CRAWLER Redirection detected ('HTTP/1.0 301 Moved Permanently') for URL http://www.freebsd.org/
I 2011/09/26 23:17:26 LOADER CRAWLER ..Redirecting request to: http://www.freebsd.org/
I 2011/09/26 23:17:26 Rejected URL http://www.freebsd.org/ - redirection to double content (http return code = 301)


Ich habe http://www.freebsd.org aber zuletzt im April gecrawled, von daher sollte das doch jetzt funktionieren? :-(





Gerade eben kam bei mir:

Code: Alles auswählen
I 2011/12/16 19:30:21 LOADER CRAWLER Redirection detected ('HTTP/1.1 303 See Other') for URL http://www.idw-online.de/

I 2011/12/16 19:30:21 LOADER CRAWLER ..Redirecting request to: http://www.idw-online.de/en/

I 2011/12/16 19:30:21 Rejected URL http://www.idw-online.de/ - redirection to double content (http return code = 303)

W 2011/12/16 19:30:21 StackTrace java.io.IOException: CRAWLER Redirection of URL=http://www.idw-online.de/ ignored. The url appears already in db loaded
java.io.IOException: java.io.IOException: CRAWLER Redirection of URL=http://www.idw-online.de/ ignored. The url appears already in db loaded
   at net.yacy.repository.LoaderDispatcher.load(LoaderDispatcher.java:175)
   at net.yacy.repository.LoaderDispatcher.load(LoaderDispatcher.java:152)
   at net.yacy.repository.LoaderDispatcher.parseResource(LoaderDispatcher.java:340)
   at Crawler_p.respond(Crawler_p.java:313)
   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
   at java.lang.reflect.Method.invoke(Method.java:616)
   at de.anomic.http.server.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1380)
   at de.anomic.http.server.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:929)
   at de.anomic.http.server.HTTPDFileHandler.doGet(HTTPDFileHandler.java:245)
   at de.anomic.http.server.HTTPDemon.GET(HTTPDemon.java:397)
   at sun.reflect.GeneratedMethodAccessor6.invoke(Unknown Source)
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
   at java.lang.reflect.Method.invoke(Method.java:616)
   at de.anomic.server.serverCore$Session.listen(serverCore.java:757)
   at de.anomic.server.serverCore$Session.run(serverCore.java:651)
Caused by: java.io.IOException: CRAWLER Redirection of URL=http://www.idw-online.de/ ignored. The url appears already in db loaded
   at de.anomic.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:164)
   at de.anomic.crawler.retrieval.HTTPLoader.load(HTTPLoader.java:74)
   at net.yacy.repository.LoaderDispatcher.loadInternal(LoaderDispatcher.java:269)
   at net.yacy.repository.LoaderDispatcher.load(LoaderDispatcher.java:166)
   ... 16 more


The url appears already in db loaded :-(( Ich habe aber vorher keinen Crawl angelegt mit http://www.idw-online.de als Starting Point :-(( Was ist da blos los?
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: autoReCrawl speichet Filter nicht

Beitragvon LA_FORGE » So Aug 05, 2012 10:26 pm

Code: Alles auswählen
I 2012/08/06 00:55:21 LOADER CRAWLER Redirection detected ('HTTP/1.1 301 Moved Permanently') for URL http://de.wikipedia.org/
I 2012/08/06 00:55:21 LOADER CRAWLER ..Redirecting request to: http://de.wikipedia.org/wiki/Wikipedia:Hauptseite
I 2012/08/06 00:55:21 Rejected URL http://de.wikipedia.org/ - redirection to double content (http return code = 301)
W 2012/08/06 00:55:21 StackTrace java.io.IOException: CRAWLER Redirection of URL=http://de.wikipedia.org/ ignored. The url appears already in db loaded
java.io.IOException: java.io.IOException: CRAWLER Redirection of URL=http://de.wikipedia.org/ ignored. The url appears already in db loaded


Problem besteht immer noch :-( 1.04/9016
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste