18.631.571, 41.937.753, zu viele URLs

Ereignisse, Vorschläge und Aktionen

18.631.571, 41.937.753, zu viele URLs

Beitragvon thq » Di Mai 12, 2009 8:20 pm

Ok, URLs können wir nicht genug haben und mir geht es hier auch wieder mal um die "URLs for Remote Crawl".

Ich bin immer noch der Meinung das es überhaupt keinen Sinn macht so viele URLs auf Vorrat zu erfassen. Dadurch wird kein Stück schneller indexiert was im Endeffekt wichtiger ist. Es würde voll kommen reichen wenn jeder Peer maximal 1000 URLs für lokal und remote Crawls speichert und dann solange nicht crawlt bis in einer der Queues wieder platzt ist. Das würde meiner Meinung dem ganzen Netz oder den einzelnen Peer nur helfen und vielleicht sogar schneller machen, aber bestimmt nicht langsamer.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: 18.631.571, 41.937.753, zu viele URLs

Beitragvon Lotus » Di Mai 12, 2009 8:38 pm

Ich glaube mit "nicht crawlen" meinst du ein Nichtbeachten der Links, sonst macht es für mich keinen Sinn.

Das ist ein interessanter Punkt.
Vorausgesetzt, Webseiten sind verlinkt (und das sind sie), werden theoretisch auch bei einem Stack-Limit irgendwann alle Links gefunden.
Problematisch sehe ich hier, dass für Links die selten kommen evtl. ein Recrawl einer bestimmten Seite notwendig wird um diese zu erfassen.
Ich weiß nicht wie das momentan abgespeichert ist. Aber bei Erreichen des Limit könnte ein Verweis gespeichert werden, dass bei Seite x noch Links zu folgen ist. Ist das Limit unterschritten, könnten die Links der Seite x dann abgefragt und auf den Crawl-Stack gelegt werden. Das macht momentan aber wahrscheinlich ziemlich viel IO im Vergleich mit der derzeitigen Lösung.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: 18.631.571, 41.937.753, zu viele URLs

Beitragvon PCA42 » Di Mai 12, 2009 8:43 pm

Passt das nicht auch dazu: http://forum.yacy-websuche.de/viewtopic.php?f=9&t=2082#p14647.
Kann bei der Überarbeitung der Queue vielleicht mit beachtet werden.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: 18.631.571, 41.937.753, zu viele URLs

Beitragvon thq » Di Mai 12, 2009 8:52 pm

Nochmal anders ...

Ein Peer crawlt (wie immer), wenn dann aber beide Queues von 1000 (lokal/remote) voll sind pausiert der Crawler und der Peer kann sich nun nur mit dem indexieren beschäftigen. Wenn dann in einer der beiden Queues wieder platz ist, sagen wir mal für 100 neue URLs, macht der Crawler einfach da weiter wo er aufgehört hat. Ziel ist es in beiden Queues > 900 URLs zu speichern. Vielleicht auch ein paar mehr, ich weiß jetzt nicht wie viele Remote-Crawl-URLs wie schnell abgeholt werden, glaube aber das 1000 reichen sollten.

Ganz einfach eigentlich, aber vielleicht meinten wir beide das gleiche ;)
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: 18.631.571, 41.937.753, zu viele URLs

Beitragvon PCA42 » Di Mai 12, 2009 8:57 pm

Ich würde da gerne im anderen Thread weitermachen, da dort schon Ideen gesammt sind. Ich nehm das mal mit rüber.....
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: 18.631.571, 41.937.753, zu viele URLs

Beitragvon Orbiter » Di Mai 12, 2009 9:32 pm

das ganze ist nicht so ganz einfach, denn wenn du in der Queue von 1000 URLs in einen Crawler-Honeypot gelandet bist mit einem Crawl-Delay von x Minuten, wirst du einfach so völlig blockiert. Sollte aber der Balancer mal anständig laufen, so lässt sich das mit der 'Breite' des Crawls kompensieren. Die Menge der URLs stellt auch kein Problem dar, das belastet ja den Speicher kaum, weder auf der Platte noch im RAM. Auch wenn die Anzahl sechsstellig wird. Statt dessen wirst du eine viel größere Vielfalt an Hosts bekommen.

Oder anders gesagt: wenn du so viele URLs in der Queue hast, hast du vielleicht eine zu große Tiefe angegeben? Die Mengebegrenzung pro Host nicht genutzt?

Ich bin sowieso dafür den Crawler völlig zu überarbeiten, und zwar so dass der Crawler nach dem Parsen der Dateien die Surrogate füllt. Das ist eine schöne Schnittstelle, so dass jeder seinen eigenen Crawler bauen kann. Ich baue einen und du auch, dann kann sich jeder einen aussuchen? Allerdings ist das für mich nicht naheliegend jetzt sofort anzufangen, wir haben ja demnächst den Linuxtag, da muss man nicht mit sowas anfangen. Aber du könntest doch probieren einen Crawler zu bauen; wie gesagt: ich hab eh vor das weiter zu abstrahieren und so Quasi Plug-In Crawler nutzen zu können. Einfach Surrogat-Files schreiben!
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: 18.631.571, 41.937.753, zu viele URLs

Beitragvon bluumi » Di Mai 12, 2009 11:10 pm

thq hat geschrieben:ich weiß jetzt nicht wie viele Remote-Crawl-URLs wie schnell abgeholt werden, glaube aber das 1000 reichen sollten.


Also mein grosser hat pro Tag etwa 10'000 - 100'000 URLS zum Crawlen abgegeben. 1'000 fänd ich ehrlich gesagt zu wenig.

Aber ich bin mit Dir einig, dass über 1 Mio URLS in der RemoteCrawl Queue auch (zu)viel ist.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast