Remotecrawl JobQueue in die Höhe zu treiben?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon bluumi » Mi Jan 07, 2009 5:01 pm

Im Thread viewtopic.php?f=15&t=1687 fragt lisema nach RemoteCrawl Jobs.

Desshalb meine Frage,
Gibt es ein Setting (0.610/05246), um die Remotecrawl JobQueue in die Höhe zu treiben? 8-)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon lisema » Mi Jan 07, 2009 5:30 pm

die grossen Kisten hier schaffen uebrigens 1000 ppm, stabil lagen sie bei 800 ppm fuer 20 Min, kann man da die remote crawl parameter auf ueber 600 treiben?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon Orbiter » Mi Jan 07, 2009 5:31 pm

du meinst wieviel da rein läuft? nein, das wird nicht gesteuert. In der remote queue sind schlicht alle Blätter des Crawl-Baumes, also alle URLs, die in der Tiefe des Suchbaumes auftauchen, auf die das Limit eingestellt ist. Wenn man davon ausgeht das man einen Verzweigungsgrad von 20 hat (eine Seite hat 20 Links), dann müssten in der remotecrawl liste 20 mal mehr Links drin stehen als inder local queue. Dabei werden die lokalen aber auch lokal erst abgearbeitet, d.h. je mehr man davon verarbeitet, desto mehr füllt sich die remote queue. Und es sind mehr, umso größer die maximale Tiefe ist.

Aber vorsicht: bei einer Tiefe von 8 erfasst man 20^^8 = 2^^8 * 10^^80 = 256 * 100000000 = 25 milliarden Seiten, das ganze Internet! Davon müsste dann immerhin ein zwanzigstel in der remotecrawl queue stehen...
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon Phiber » Mi Jan 07, 2009 9:49 pm

Gäbe es da auch Möglichkeiten, 0 Local-Crawls machen zu lassen und alles direkt als RemoteCrawl verschicken zu lassen? Oder wäre dies zu umständlich, da man ja dann von RemoteCrawler alle weiterweisenden Links wieder zurückbekommen müsste?

Nur so ne Idee nebenbei, gerade in Hinsicht auf eine mögliche Ausarbeitung von Gruppen innerhalb von YaCy oder auch von schwachen Peers, welche als Ideenliferanten dienen aber nicht nen so starken LocalCrawl antreiben könnten.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon Orbiter » Mi Jan 07, 2009 10:50 pm

das geht nicht, denn man bekommt ja URLs der Tiefe x nur, wenn man x-1 läd, und den nur bei x-2 u.s.w.
Remote Crawls sind auf maximaler Höhe, sagen wir mal 3, und dann musst du _alle_ der Tiefe 2 laden, um die der Tiefe 3 zu kennen. Wenn du alles in die remote crawls legts, hört der Crawler auf zu arbeiten, denn so ist er definiert! Remote Crawls von URLs mit Tiefe kleiner als x darfst du aber nicht verschicken, weil dir dann alles was auf einer weiteren Tiefe liegt nicht bekommst. Und das wären deine eigentlich (viel mehr) remote Crawls. Wenn du aber beispielsweise eine URL der Tiefe x-1 verschickst, und dem remote Crawler sagen würdest, dann nehme doch noch alle Folgeurls auf Tiefe x, dann hättest du bei der Verteilung dann sehr, sehr viele doppelt geladene URLs, weil ja andere Peers nichts von den URLs der Tiefe x wissen, die sich nach einer Anlieferung einer URL der Tiefe x-1 bekommen haben.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon lisema » Mi Jan 07, 2009 11:13 pm

Okie das spricht ja wieder für ein intelligentes Crawl Konzept.

Kriegt man von einem Remote Crawl die Daten eigentlich? Wenn ja, könnte man ja auch die URLs von dieser Seite noch kriegen. Sodass zwar ein Peer einen Crawl koordiniert, aber nicht unbedingt selber ihn ercrawlt.
An diesem Punkt würde ich aber unbedingt die Peers authentifizieen wollen, denn ein Peer der wahllose URLs zurückschickt, kann sehr gefährlich sein.

Einfach als weitere Idee in dem Konzept, Remote Crawls (so wie jetzt), Trusted Remote Crawls (der schickt mir auch URLs zurück, dem muss ich also vertrauen können), Local Crawls (Mir vertrau ich meist sowieso ;) )
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon Orbiter » Mi Jan 07, 2009 11:26 pm

lisema hat geschrieben:Kriegt man von einem Remote Crawl die Daten eigentlich?

ja, nachdem der Remote Crawler (der andere Peer) eine URL, die er von dir bekommen hat geladen hat, schickt er dir ein Receipt in dem der komplette URL record drin steht. D.h. auch Infos darüber wieviele weitere Links dort eingebettet waren, vieviele davon Images, Dokumente etc; wieviele Wörter und die ganzen Flags.

Der Auftraggeber (dein Peer, der Crawlt) speichert dann die URL vom Receipt in seiner LURL-DB, ganz so als hätte er sie selber geladen. Das ist dann auch nur noch für den Double-Check relevant, denn die URL wird dann im Folgenden bei Crawls ausgespart.

Das Receipt-Protokoll ist übrigens noch eine Schwachstelle, denn obwohl ein Remote Crawler URLs als Massenliste ziehen kann, muss er jede URL einzeln mit einem Receipt bestätigen. Also viel zu viel Traffic. Besser wäre es, alle Receipts zu einem Auftraggeber zu sammeln, und diese komplett zu schicken. Das muss noch gebaut werden.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Remotecrawl JobQueue in die Höhe zu treiben?

Beitragvon lisema » Mi Jan 07, 2009 11:41 pm

Orbiter hat geschrieben:
lisema hat geschrieben:Das Receipt-Protokoll ist übrigens noch eine Schwachstelle, denn obwohl ein Remote Crawler URLs als Massenliste ziehen kann, muss er jede URL einzeln mit einem Receipt bestätigen. Also viel zu viel Traffic. Besser wäre es, alle Receipts zu einem Auftraggeber zu sammeln, und diese komplett zu schicken. Das muss noch gebaut werden.


Ich schmeiss es bei mir auf die ToDo Liste für März.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: YaCy [Bot] und 1 Gast