Lokaler Crawler läuft Amok

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Lokaler Crawler läuft Amok

Beitragvon click42 » Fr Sep 21, 2012 10:32 am

Irgendwie scheint der Lokale Crawler seit ein zwei Versionen (gerade 1.1/9074) keine Grenzen mehr zu kennen. Testscenario: Lokaler Crawler ist leer, dann eine Suche starten ("linux") und der Crawler läuft innerhalb von Minuten in Puffergrößen >15000. Einstellung ist search-result: shallow crawl on all displayed search results, local in der Heuristik. Wenn man die abschaltet, ist der lokale Crawler ruhig. Gibt man dem Proxy ne Seite zu fressen (z. B. zwei Klicks in http://www.debian.org), dümpelt der Crawler zwar im 3-stelligen Bereich rum, reißt aber aus (forbes, apple, oreilly, alles sites, die von der Startseite von http://www.debian.org eigentlich nicht erreichbar ist) und wächst nach und nach auch schneller an.

Ich hab in meiner Konfig eigentlich nichts gemacht in den letzten Wochen, halt nur neue deb-Updates reingezogen, vor allen Dingen nicht an Crawl-Tiefen rumgespielt. Hat sich da irgendwas geändert?
click42
 
Beiträge: 22
Registriert: Di Jun 19, 2012 9:17 am

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » Fr Sep 21, 2012 11:18 am

click42 hat geschrieben:Einstellung ist search-result: shallow crawl on all displayed search results, local in der Heuristik.

wenn du das einstellst, wird für jede Domäne im Suchergebnis ein Crawl für die gesamte Domäne gestartet. Dann läuft der Crawler mit den Links dieser Domänen voll und das ist so gewollt. Stell einfach die Option wieder ab, so ist es ja auch per default.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lokaler Crawler läuft Amok

Beitragvon click42 » Fr Sep 21, 2012 12:28 pm

hm, dann ist die Beschreibung für mich etwas verwirrend: "When a search is made then all displayed result links are crawled with a depth-1 crawl." steht da. Und so war das IMHO früher auch(.?)

Deine Beschreibung ist eigentlich sinnvoller, weil man sonst ja wieder nur über eine bereits gecrawlte Seite nochmal analysiert, was höchstens ein Update zur Folge hätte, ein domänenweiter crawl liefert dann auch sinnvolle und neue Ergebnisse.
click42
 
Beiträge: 22
Registriert: Di Jun 19, 2012 9:17 am

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » Fr Sep 21, 2012 2:33 pm

ups du hast recht, sollte nur eine Tiefe von 1 sein. Ich schaue mal nach.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » Fr Sep 21, 2012 3:09 pm

also es stimmt, der crawler hatte völlig die Begrenzung verloren für alle Crawls die nicht über den normalen Start gestartet wurde, und zwar durch einen falschen Default-Wert eines neuen Parameters, den 'no depth limit pattern'. Der stand auf catchall und soll aber catchnever sein. Hab einen Patch im git.

Dieser neue 'no depth limit pattern' kann man neben dem Crawl start eingeben und hebt, wenn er mit der URL matcht, die depth auf. Das kann man dazu nutzen um so zu crawlen dass man irgenwohin kommt wo der Pfad passt um dort dann so lange durchzucrawlen um alles in dem Pfad ist reinzulesen. Wenn dieses regex pattern dann catchall ist, hört das natürlich nicht mehr auf.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lokaler Crawler läuft Amok

Beitragvon usern » So Sep 23, 2012 12:59 pm

Hi.

My deutsch is not that good so I translated the posts in this thread with google and it seems to be about the same issue as I have.

I am now running 1.1/9086 and when I try to use Yacy as a proxy or when I make a search the "Local Crawler" queue grows out of control (almost 100000 pages in half an hour)
The PPM meter goes down to 0 but the queue continues to grow so it seems that yacy stops indexing at the right depth but still follows the links on pages.

As i had a hard time reading the translation to this thread my question is, was a fix for this already deployed or is it scheduled for release?

//Usern
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon Lotus » So Sep 23, 2012 7:05 pm

usern hat geschrieben:As i had a hard time reading the translation to this thread my question is, was a fix for this already deployed or is it scheduled for release?

A patch has been made. But it is not clear if it is online, yet.

Orbiter hat geschrieben:also es stimmt, der crawler hatte völlig die Begrenzung verloren für alle Crawls die nicht über den normalen Start gestartet wurde, und zwar durch einen falschen Default-Wert eines neuen Parameters, den 'no depth limit pattern'. Der stand auf catchall und soll aber catchnever sein. Hab einen Patch im git.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Lokaler Crawler läuft Amok

Beitragvon usern » So Sep 23, 2012 7:17 pm

Lotus hat geschrieben:
usern hat geschrieben:As i had a hard time reading the translation to this thread my question is, was a fix for this already deployed or is it scheduled for release?

A patch has been made. But it is not clear if it is online, yet.


Yep, I saw that too.
I guess that you are refering too https://gitorious.org/yacy/rc1/commit/f ... d7643e631e ?
Unfortunateley there seems to be no link between Yacy versions and gitorious commits, would have been nice to know what commit a Yacy version is including.

Orbiter hat geschrieben:also es stimmt, der crawler hatte völlig die Begrenzung verloren für alle Crawls die nicht über den normalen Start gestartet wurde, und zwar durch einen falschen Default-Wert eines neuen Parameters, den 'no depth limit pattern'. Der stand auf catchall und soll aber catchnever sein. Hab einen Patch im git.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon usern » So Sep 23, 2012 7:57 pm

I had a look in my Yacy dir and compared the sourcecode to whats on gitorious and it seems to be uptodate with the last gitorious commit.
To me that indicates that I am really running with the "Fix", mabye there is something more that needs to be fixed.

Hopefully Orbiter has an idea of what is happening.

//Usern.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » So Sep 23, 2012 11:06 pm

the fix does not clear the queue but it prevents that the queue is filled further.
You must manually empty the queue;open /IndexCreateQueues_p.html?stack=LOCAL and use the default-regex to remove all entries from the queue
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lokaler Crawler läuft Amok

Beitragvon usern » Mo Sep 24, 2012 12:44 pm

Hi again.

Unfortunately that does not work for me :(

If I start with an empty queue and do a search my queue starts to fill up and the node starts indexing pages (PPM meter rises), after a while the PPM meter goes down to zero but the queue does not stop filling up.
Looking at /IndexCreateQueues_p.html?stack=LOCAL i can see depths of 30 or more, the queue even filled up so fast that I was unable to empty it and had to manually delete the QUEUES dir after I stopped the node.
I have enabled all Heuristics but that shouldn't really matter.

Any ideas as to what could have gone wrong for me?

//Usern.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » Mo Sep 24, 2012 2:00 pm

please check that you are actually running 1.1/9086 because thats exactly which is fixed there.
I tried to reproduce the problem but I cannot see it any more.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lokaler Crawler läuft Amok

Beitragvon usern » Mo Sep 24, 2012 2:58 pm

Yep, both /Status.html and /ConfigUpdate_p.html says that I am running 1.1/9086 .

It might be some crazy thing that only happened to me and I might have to start over with a new node, good thing that its fairly simple to move the index (Don't wanna lose the 5.8M indexed pages).

Thank you so far.

//Usern.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon usern » Mo Sep 24, 2012 4:52 pm

Hi again.

Orbiter, your last post got me thinking and it seems like I solved my issue, what really happened I do not know.

This is what i did.

I downgraded my node to 1.1/9069, tested it and my issue was not reproducable (As I expected)
I then deleted the 1.1/9086 release that the node presented as available, downloaded 1.1/9086 again an installed it.
My so far limited testing indicates that things are back to normal and that I once again can use the node as both Proxy and searchengine :D

I am suspecting that something went wrong when I first updated to 1.1/9086, dunno what though.

Thanx for your time, hopefully my node will run as intented now.

//Usern.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon usern » Mo Sep 24, 2012 5:40 pm

I might have spoken too soon.

Did an upgrade to 1.1/9091, after the restart I made 1 search and now my "Local Crawler queue" is filling up at an insane speed again.
10 minutes after the search the queue is up to ~48000 and rising :shock:
Looking at /IndexCreateQueues_p.html?stack=LOCAL i can see depths of 59, 27, 26, 18, 51, 35, 49 and ofcourse a lot more.

I am out of ideas here and sadly I can't use Yacy with this going on as it eats up my comps resources :(

//Usern.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » Mo Okt 08, 2012 9:58 am

I have found some serious problems in the crawl profile definitions which could be the cause for this problem.
Please try again with yacy_v1.1_20121008_9150
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lokaler Crawler läuft Amok

Beitragvon usern » Di Okt 09, 2012 11:30 pm

Hi again.

Last time I had the issue I solved it by installing a new node and copied over the old index to that node, for some time it did work but 1 or 2 days ago the issue came back :(
In retrospective it's a good thing that my node started acting up again, now I had the chance to try your fix on a faulty node :mrgreen:

I updated the node from 9091 to 9150, deleted the queues dir and started up again.

I have only done a few test (Searching and using the node as a proxy) but so far things seems to be working out like it should. :D
I will try to stress the node with more searches and more proxy use than normal in the next days to see if it holds up..

//Usern.
usern
 
Beiträge: 13
Registriert: So Sep 23, 2012 12:33 pm

Re: Lokaler Crawler läuft Amok

Beitragvon Orbiter » Sa Nov 03, 2012 4:37 pm

In the last days we had great advances in the crawler behavior so I would soggest to re-try again with the latest build from the auto-updater.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste