Rollenverhalten

Ideen und Vorschläge sind willkommen.

Rollenverhalten

Beitragvon lisema » So Jan 18, 2009 3:28 pm

Moin,

mir ist gerade eine Idee gekommen, da ein grosses Problem beim Remote Crawlen die Sichtbarkeiten der Peers ist, ist es möglich, sobald keine eigenen Crawls laufen sich an die Peers mit Remote Crawl Jobs zu heften?

Hier hat ein Peer zB gerade die Sichtbarkeit von allen anderen Peers mit Remote Crawl Jobs verloren, idled also rum. Wenn der nun bei leerer Local Crawl Queue und aktivierten Remote Crawl Queue und grossen Queues die Peers immer pingen würde, oder sagen wir x von n peers pro zyklus pingt, so könnte ich mir vorstellen, dass die für ihn nicht verschwinden und er länger als zum Crawlen zur Verfügung steht.

Was denkt ihr davon?
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Rollenverhalten

Beitragvon Orbiter » So Jan 18, 2009 4:51 pm

ein peer wird immer dann aus der Peer-Liste gekickt, wenn er auf einen Request nicht antwortet. Wenn ein Peer nicht antwortet kann man sich ihm auch nicht an die Fersen heften. Wenn man nun eine 'antwortest du nicht auf mein ping dann ping ich halt nochmal, oder noch einige mal' - Strategie einbaut, so würde das dazu führen, das ein Peer der eh gerade Probleme hat zu antworten auch noch mit einer Ping-Flut überhäuft wird.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Rollenverhalten

Beitragvon lisema » So Jan 18, 2009 5:00 pm

jo war also ein Denkfehler von mir. Danke
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Rollenverhalten

Beitragvon lisema » So Feb 01, 2009 1:04 pm

ich bring das noch mal nach oben.

Warum nicht das ganze umdrehen? die Peers mit vielen Remote Crawls halten aktiv Verbindung zu crawlwilligen Peers. Es müssen ja nicht viele sein, sondern nur so 5-10.

Wenn sich in Peers also einstellen liesse, dass sie x "fremden" Peers zur verfügung stehen, so ist das sicher sinnvoller als eigene Crawls zu starten, die es sowieso schon gibt. Der Peer meldet sich an bei dem fremden Peer und wird über Arbeit benachrichtigt. Auch sollte das entfernen aus der Liste nicht so schnell gehen. Ich hab vorhin beobachtet, wie sich X Seiten abgeholt wurden, und gleich darauf der fremde Peer verschwand.

Einfach mal Meinungen zu dem Thema abgeben :) Implementierung schau ich mir mal im März an.
lisema
 
Beiträge: 110
Registriert: So Dez 14, 2008 8:06 pm

Re: Rollenverhalten

Beitragvon Orbiter » So Feb 01, 2009 5:25 pm

ich halte es für besser den Bug zu finden. ich sehe gerne danach, aber momentan ist mir die DHT-Verteilung wichtiger, an der arbeite ich seit 10 Tagen intensiv, davon habt ihr noch kein Commit gesehen. Muss für alles erst mal Zeit finden. Aus meiner Sicht ist der aktuell vorgesehene Prozess der optimale. Wenn die liefernden Peers wegsacken ist das ein Bug, aber nicht der Prozess falsch.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Rollenverhalten

Beitragvon PCA42 » So Feb 01, 2009 10:18 pm

Orbiter hat geschrieben:aber momentan ist mir die DHT-Verteilung wichtiger

Seh ich seit einer Weile auch so. Crawlen ist ja schön, effizente Datenverteilung aber grundlegend und wichtig für die Funktionsweise von Yacy. Auch sollte vielleicht wieder mehr der Aspekt Proxy -> Crawler in den Vordergrund gerückt werden. Yacy ist doch mal angetreten, um das Deep-Web zu durchforsten.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Rollenverhalten

Beitragvon Orbiter » So Feb 01, 2009 11:11 pm

ein kleiner Anfang einer Analyse: die remote crawl provider werden nach dem Laden einer remote crawl Liste aus der Peer-DB geworfen, wenn was falsch gelaufen ist. Das sieht man in CrawlQueues, Zeile 368. Jetzt müsste man herausfinden was schief läuft. Das wird durch eine Warning-Logausgabe dokumentiert. Dazu bitte man in die Logs schauen und nach "yacyClient.queryRemoteCrawlURLs" greppen. Was steht da?

Übrigens: ein laden eines Remote Crawls kann man provozieren mit dem Servlet auf
http://localhost:8080/rct_p.html
Da kann man dann einen Peer aussuchen, von dem die Remote Crawls geladen werden.

UPDATE:
Hab einen Grund gefunden, was schief laufen könnte: das remote-crawl Interface ist ja in XML, und wird mit einem RSS-Parser gelesen. Der liefert an mindestens einer Stelle ein "org.xml.sax.SAXParseException: The entity "ouml" was referenced, but not declared." zurück.
Das sollte dann auch in einer Log-Ausgabe stehen, mit "rssReader parse exception:" vorne dran. Hat das jemand?

An die XML-Experten: Was ist beim Schreiben des RSS dann falsch gelaufen? Ein Fix müsste dann wohl irgendwo in htroot/yacy/urls.xml und/oder htroot/yacy/urls.java zu machen sein. Irgendwie was mit Umlauten und korrekter Kapselung im XML. Kann da mal einer von euch drauf gucken?

UPDATE2:
habs mal mit SVN 5563 versucht zu fixen. Wenn das richtig war, und auch der Grund für das Problem, zieht es aber erst wenn alle remote Crawl provider diesen Fix haben.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Rollenverhalten

Beitragvon lulabad » Mo Feb 02, 2009 1:18 pm

meins du sowas hier?
Code: Alles auswählen
W 2009/02/02 13:13:21 rssReader response does not contain valid xml
W 2009/02/02 13:13:21 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'ICSY': probably bad response from remote peer (1), reader == null
W 2009/02/02 13:13:22 rssReader parse exception: java.io.IOException: The entity "auml" was referenced, but not declared.
W 2009/02/02 13:13:22 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'dulcedo': probably bad response from remote peer (1), reader == null
W 2009/02/02 13:13:22 rssReader parse exception: java.io.IOException: The entity "uuml" was referenced, but not declared.
W 2009/02/02 13:13:22 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'YetAnotherPeer': probably bad response from remote peer (1), reader == null

SVN 5564

Das sind garantiert Umlaute. &auml / &uuml
Warten wir mal biss alle aktualisiert haben
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Rollenverhalten

Beitragvon bluumi » Di Feb 03, 2009 5:28 pm

Darf ich darauf hinweisen, dass ich euch das doch schon vor wochen sagte? viewtopic.php?f=6&t=1773&start=0&st=0&sk=t&sd=a :cry:
Code: Alles auswählen
W 2009/01/21 21:48:22 YACY yacyClient.queryRemoteCrawlURLs failed asking peer 'vogel-m0': probably bad response from remote peer (1), reader == null
W 2009/01/21 21:48:22 rssReader parse exception: java.io.IOException: The entity "auml" was referenced, but not declared.


Dann bin ich mal "nicht-schwanger" aber guter Hoffnung, dass Orbit Erfolg hatte.
Und eine bessere DHT verteilung ist klar auch was gutes ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste