Mein Peer ist faul

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Mein Peer ist faul

Beitragvon freq.9 » Di Mai 05, 2009 6:58 pm

Irgendwie sieht seit dem Wochenende mein Performance-Graph des öfteren wie folgt aus:

Bild

Woran kann das liegen? Ich hab nun seit beginn immer nur eine URL als "crawlStart" definiert. Kann es vllt. daran liegen, dass die Tiefe erreicht ist und nun nichts weiter gefunden wird?
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon freq.9 » Mo Mai 11, 2009 9:02 pm

Hat hier keiner was zu zu sagen? :)
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon bluumi » Mo Mai 11, 2009 9:44 pm

;)
"gehst Du auf den Strich?"

Schön Gerade ..

Hatte ich auch schon, die frage ist, ob er nun wirklich nichts zu tun hat, und ob Du ihn mal rebootet hast und ob er vielleicht sich in einem Job verbissen hat?
remotecrawl on or off?
nix.JPG
nix.JPG (25.78 KiB) 1414-mal betrachtet

Denn mein grosser, wo der Job ausgegangen ist, sieht ja auch nicht viel besser aus. Du kannst Doch selber schauen ob er nix mehr zu tun hat (?)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Mein Peer ist faul

Beitragvon dulcedo » Di Mai 12, 2009 4:59 am

Ich finde den Wort/Url-Zähler ein wenig seltsam, er hat ja keine Wörter um etwas damit anzustellen, deshalb die Speicherkurve so flach.
Wenn er nicht crawlt dann sortiert er nur seine Daten um, da fällt bei dir auch keine Arbeit an.
Wie schafft man es denn in 10 Million Seiten nur 1000 Wörter zu finden?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Mein Peer ist faul

Beitragvon freq.9 » Do Mai 14, 2009 7:32 am

Also meinen Peer kann ich aktuell pro Tag ein- oder zweimal neustarten. Dann macht er auch eine kurze Zeit etwas aber dann hängt er wieder und ich muss neustarten. Ich glaube ja, dass es irgendwie an den URLs liegt, die man definieren muss, wo der Peer überall suchen soll. Da habe ich aktuell nur eine URL und ich hab nen "Bookmark" und keine Ahnung, ob sich da was tut.

dulcedo hat geschrieben:Wie schafft man es denn in 10 Million Seiten nur 1000 Wörter zu finden?


Sag du mir das :) Ich habe den Peer gestartet. Dass er nur so wenig im Index hat, wundert mich schon seit beginn, aber habe ich "damals" keine Antwort bekommen.
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon dulcedo » Do Mai 14, 2009 9:01 am

Ich finde deine Frage nicht, hat er sich vielleicht in einer Art affilate-Netz verfangen und indexiert nun den selben Inhalt über millionen von dynamischen URLs?
Kontrolliere mal was du überhaupt indexierst, unter: CrawlResults.html?process=5&autoforward= .
Von welcher URL aus bist du gestartet?

Zur ersten Frage: eigentlich kann man ihn einfach installieren und laufen lassen, man muss nicht selbst Seiten indexieren (crawlen). Aber dann darf er keinesfalls ein solches Missverhältnis URLs/Wörter erzeugen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Mein Peer ist faul

Beitragvon freq.9 » Do Mai 14, 2009 9:46 am

dulcedo hat geschrieben:Ich finde deine Frage nicht, hat er sich vielleicht in einer Art affilate-Netz verfangen und indexiert nun den selben Inhalt über millionen von dynamischen URLs?


Affiliate? Ich weiß, dass in letzter Zeit eigentlich immer us.imdb.com in den Logs auftauchte.

dulcedo hat geschrieben:Kontrolliere mal was du überhaupt indexierst, unter: CrawlResults.html?process=5&autoforward= .


Dafür muss ich erstmal den Peer zum Laufen bekommen :) Habe den vorhin daheim gestartet aber nun hing der schon wieder, sodass ich das Webinterface nicht aufrufen konnte. Habe den soeben mal neugestartet.

dulcedo hat geschrieben:Von welcher URL aus bist du gestartet?


Bin von meinem eigenen Blog aus gestartet, da ich da immer wieder viele URLs gepostet hatte.

dulcedo hat geschrieben:Zur ersten Frage: eigentlich kann man ihn einfach installieren und laufen lassen, man muss nicht selbst Seiten indexieren (crawlen). Aber dann darf er keinesfalls ein solches Missverhältnis URLs/Wörter erzeugen.


Dann ist nun die Frage, wieso die Zahl bei mir so klein ist. Aber ich hab da keine Ahnung woran das liegen könnte. Das kann mir sicher nur ein erfahrener Nutzer oder einer von den Entwicklern sagen. Hoffe ich doch mal :)
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon freq.9 » Do Mai 14, 2009 10:06 am

dulcedo hat geschrieben:Kontrolliere mal was du überhaupt indexierst, unter: CrawlResults.html?process=5&autoforward= .


Also ich weiß ja nicht, aber bei dieser URL sehe ich eine Grafik, wo der ganze Ablauf skizziert ist, wie YaCy vorgeht. Meintest du vllt. "Local Crawling"?

(5) Results for Local Crawling
These web pages had been crawled by your own crawl task.
Use Case: start a crawl by setting a crawl start point on the 'Index Create' page.
The stack is empty.


Ansonsten hier mal grobe Übersichten der anderen Tabs:

(1) Results of Remote Crawl Receipts

This is the list of web pages that this peer initiated to crawl, but had been crawled by other peers. This is the 'mirror'-case of process (6).

Use Case: You get entries here, if you start a local crawl on the 'Index Creation'-Page and check the 'Do Remote Indexing'-flag. Every page that a remote peer indexes upon this peer's request is reported back and can be monitored here.

Statistics about 28 domains in this stack:
Domain URLs
us.imdb.com 370
en.wikipedia.org 2
[...]


(2) Results for Result of Search Queries
This index transfer was initiated by your peer by doing a search query. The index was crawled and contributed by other peers.
Use Case: This list fills up if you do a search query on the 'Search Page'
The stack is empty.


(3) Results for Index Transfer

The url fetch was initiated and executed by other peers. These links here have been transmitted to you because your peer is the most appropriate for storage according to the logic of the Global Distributed Hash Table.

Use Case: This list may fill if you check the 'Index Receive'-flag on the 'Index Control' page

Statistics about 100 domains in this stack:
Domain URLs
twitter.com 99
http://www.twitter.com 90
fotos.manor.ch 27
de.wikipedia.org 26
en.wikipedia.org 24
http://www.heise.de 14
http://www.midiaindependente.org 11
vls.wikipedia.org 10
cv.wikipedia.org 10
archive.cert.uni-stuttgart.de 10
http://www.mamo.de 10
http://www.tv.com 9
tr.wikipedia.org 9
http://www.flickr.com 7
[...]


(4) Results for Proxy Indexing

These web pages had been indexed as result of your proxy usage. No personal or protected page is indexed; such pages are detected by Cookie-Use or POST-Parameters (either in URL or as HTTP protocol) and automatically excluded from indexing.

Use Case: You must use YaCy as proxy to fill up this table. Set the proxy settings of your browser to the same port as given on the 'Settings'-page in the 'Proxy and Administration Port' field.

The stack is empty.


(6) Results for Global Crawling

These pages had been indexed by your peer, but the crawl was initiated by a remote peer. This is the 'mirror'-case of process (1).

Use Case: This list may fill if you check the 'Accept remote crawling requests'-flag on the 'Index Crate' page

Statistics about 100 domains in this stack:
Domain URLs
us.imdb.com 330
http://www.youtube.com 88
en.wikipedia.org 29
de.wikipedia.org 25
fr.wikipedia.org 21
ja.wikipedia.org 14
http://www.vancouversun.com 10
http://www.main-echo.de 9
lists.indymedia.org 7
[...]
Zuletzt geändert von freq.9 am Do Mai 14, 2009 3:23 pm, insgesamt 1-mal geändert.
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon dulcedo » Do Mai 14, 2009 10:33 am

Dann sind dir die Millionen URLs durch DHT zugesendet worden, aber wo sind die Worte dazu?
Bitte mal einer von den echten Experten.

Edit: ah IMDB!
Das ist eine Datenbank die dir dynamische Inhalte generiert, das erklärt aber immer noch nicht warum nur 1000 Worte.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Mein Peer ist faul

Beitragvon freq.9 » Do Mai 14, 2009 11:28 am

Also mein Peer hat sich inzwischen wieder aufgehängt.
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon PCA42 » Do Mai 14, 2009 3:27 pm

Um hier eine Ferndiagnose geben zu können, sind die Log-Dateien von Yacy immer eine große Hilfe. Diese sind im Ordner "DATA/LOG" zu finden. Yacy vermerkt dort fast alles, was während der Laufzeit passiert. Treten Probleme auf, findet man dort Hinweise. Kannst du diese nicht deuten, einfach hier ein Posting ins Forum. Bitte dabei auch immer die verwendete Version/SVN angeben. Wenn möglich, gib auch die Art und Weise an, wie Yacy derzeit tätig ist (DHT,Crawling etc.). Mit diesen grundsätzlichen Angaben ist es einfacher, Probleme zu lösen.

Nun zu deinem Peer: wie Dulcedo bereits geschrieben hat, fällt ist ein Missverhältnis zwischen den URLs und RWI zu beobachten. Wie das entstanden ist läßt sich wahrscheinlich nicht mehr nachvollziehen. Wenn du Yacy immer wieder über die selbe Seite crawlen lassen willst, sollte die Option "Re-crawl bekannter URLs" vorgegeben werden. Sonst wird die Seite als doppel erkannt und nicht gecrawlt. Handelt es sich dabei um den Startpunkt ist dort bereits Ende.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Mein Peer ist faul

Beitragvon freq.9 » So Mai 17, 2009 9:01 am

Also mein Peer (Rev. 5951) rennt nun das ganze Wochenende und träumt so vor sich hin. Hier also nun mal die letzten 100 Einträge aus dem Log. Vielleicht hilft es ja.

Code: Alles auswählen
D 2009/05/14 21:06:57 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/14 21:07:01 YACY yacyClient.queryUrlCount error asking peer 'luna-2':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 21:07:01 YACY hello: responded remote junior peer 'luna-2' from 134.107.24.49
D 2009/05/14 21:07:09 CRAWLER problem loading http://us.imdb.com/keyword/arrest/character-name-in-title/officer/poverty-row-film/: The host did not accept the connection within timeout of 9000 ms
D 2009/05/14 21:07:40 CRAWLER REMOTETRIGGEREDCRAWL[24, 7273644, 0, 54]: URL=http://www.stadtbranchenbuch.com/berlin/C/, initiator=cJHDuEvHnnAA, crawlOrder=false, depth=0, crawlDepth=0, must-match=.*, must-not-match=, permission=true
E 2009/05/14 21:07:40 YACY yacyClient.queryUrlCount error asking peer 'dulcedo':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 21:07:40 CRAWLER LOCALCRAWL[25, 7273644, 0, 55]: enqueued for load http://us.imdb.com/keyword/couple/fall-from-height/music/ [5NkLBpVw8WSY]
I 2009/05/14 21:08:16 CRAWLER REMOTETRIGGEREDCRAWL[24, 7273644, 0, 54]: enqueued for load http://www.stadtbranchenbuch.com/berlin/C/ [k66BKqiiBn6b]
D 2009/05/14 21:09:12 ROBOTS Trying to download the robots.txt file from URL 'http://www.stadtbranchenbuch.com/robots.txt'.
I 2009/05/14 21:09:20 YACY hello: changing remote peer 'vaisheshika' [87.145.28.171] peerType from 'senior' to 'junior'.
I 2009/05/14 21:09:20 YACY hello: changing remote peer 'luna-2' [134.107.24.49] peerType from 'senior' to 'junior'.
E 2009/05/14 21:09:44 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 10000 ms
I 2009/05/14 21:10:08 YACY hello: responded remote junior peer 'dulcedo' from 92.205.45.67
E 2009/05/14 21:12:23 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
E 2009/05/14 21:12:37 YACY yacyClient.queryUrlCount error asking peer 'vaisheshika':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 21:12:37 YACY hello: responded remote junior peer 'vaisheshika' from 87.145.28.171
E 2009/05/14 21:13:47 YACY yacyClient.queryUrlCount error asking peer 'yacy-suche_home':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 21:16:37 YACY hello: changing remote peer 'vaisheshika' [87.145.28.171] peerType from 'senior' to 'junior'.
D 2009/05/14 21:17:18 CRAWLER problem loading http://www.bild.de/BILD/unterhaltung/erotik/2009/05/12/spiesser-sex/ab-heute-sexen-wir-wieder-verklemmt.html: The host did not accept the connection within timeout of 9000 ms
I 2009/05/14 21:17:11 YACY hello: responded remote junior peer 'yacy-suche_home' from 95.119.151.58
I 2009/05/14 21:18:07 YACY hello: changing remote peer 'dulcedo' [92.205.45.67] peerType from 'senior' to 'junior'.
I 2009/05/14 21:18:14 YACY hello: changing remote peer 'yacy-suche_home' [95.119.151.58] peerType from 'senior' to 'junior'.
E 2009/05/14 21:20:08 YACY yacyClient.queryUrlCount error asking peer 'yacy-suche_home':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 21:23:29 BOOKMARKS autoReCrawl - reading schedules from /var/yacy/DATA/SETTINGS/autoReCrawl.conf
I 2009/05/14 21:24:16 YACY hello: responded remote junior peer 'yacy-suche_home' from 95.119.151.58
D 2009/05/14 21:51:21 CRAWLER LOCALCRAWL[24, 7273644, 0, 53]: URL=http://us.imdb.com/title/tt0105854/miscsites, initiator=KgW2S9erypAA, crawlOrder=true, depth=8, crawlDepth=15, must-match=.*, must-not-match=, permission=true
I 2009/05/14 21:51:37 CRAWLER LOCALCRAWL[24, 7273644, 0, 53]: enqueued for load http://us.imdb.com/title/tt0105854/miscsites [G3Kq6HVw8WSY]
D 2009/05/14 21:51:40 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/14 21:53:17 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/14 21:55:36 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/14 21:56:12 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
D 2009/05/14 22:03:34 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/14 22:06:44 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/14 22:37:00 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 22:39:24 YACY hello: responded remote junior peer 'vega-1' from wernernetzwerk.homedns.org
D 2009/05/14 22:41:02 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/14 22:42:38 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/14 22:42:39 YACY hello: responded remote junior peer 'vega-1' from wernernetzwerk.homedns.org
D 2009/05/14 22:43:22 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/14 22:44:29 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
I 2009/05/15 02:27:20 YACY hello: changing remote peer 'vega-1' [wernernetzwerk.homedns.org] peerType from 'senior' to 'junior'.
I 2009/05/15 02:27:29 YACY hello: changing remote peer 'vega-1' [wernernetzwerk.homedns.org] peerType from 'senior' to 'junior'.
I 2009/05/15 02:27:38 YACY hello: changing remote peer 'yacy-suche_home' [95.119.151.58] peerType from 'senior' to 'junior'.
I 2009/05/15 06:23:53 BOOKMARKS autoReCrawl - processing: /autoReCrawl/hourly
I 2009/05/15 06:24:44 BOOKMARKS autoReCrawl - processing: /autoReCrawl/daily
I 2009/05/15 06:25:42 BOOKMARKS autoReCrawl - processing: /autoReCrawl/weekly
I 2009/05/15 06:26:22 BOOKMARKS autoReCrawl - processing: /autoReCrawl/monthly
I 2009/05/15 07:51:24 BOOKMARKS autoReCrawl - reading schedules from /var/yacy/DATA/SETTINGS/autoReCrawl.conf
E 2009/05/15 11:09:32 YACY yacyClient.queryUrlCount error asking peer 'luna-2':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/15 13:00:07 YACY hello: responded remote junior peer 'luna-2' from 134.107.24.49
D 2009/05/15 13:21:22 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/15 13:22:16 YACY yacyClient.queryUrlCount error asking peer 'aquayacytest':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/15 13:22:16 YACY hello: responded remote junior peer 'aquayacytest' from 92.105.5.205
D 2009/05/15 13:23:31 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/15 13:23:38 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
E 2009/05/15 13:24:10 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/15 13:25:45 YACY hello: responded remote junior peer 'vega-1' from wernernetzwerk.homedns.org
E 2009/05/15 13:32:05 YACY yacyClient.queryUrlCount error asking peer 'luna-2':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
E 2009/05/15 13:32:18 YACY yacyClient.queryUrlCount error asking peer 'yacystats-de-02':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/15 13:32:46 YACY hello: responded remote junior peer 'luna-2' from 134.107.24.49
I 2009/05/15 13:50:33 YACY hello: changing remote peer 'vega-1' [wernernetzwerk.homedns.org] peerType from 'senior' to 'junior'.
I 2009/05/15 13:50:37 YACY hello: changing remote peer 'luna-2' [134.107.24.49] peerType from 'senior' to 'junior'.
D 2009/05/15 14:08:48 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/15 14:10:37 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/15 14:33:55 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/15 14:37:39 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/15 15:27:48 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/15 17:27:10 YACY yacyClient.queryUrlCount error asking peer 'yacystats-de-02':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/15 17:31:17 YACY hello: changing remote peer 'luna-2' [134.107.24.49] peerType from 'senior' to 'junior'.
I 2009/05/15 20:20:50 BOOKMARKS autoReCrawl - processing: /autoReCrawl/hourly
E 2009/05/16 04:02:29 YACY yacyClient.queryUrlCount error asking peer 'prometheus':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/16 04:10:44 YACY hello: responded remote junior peer 'prometheus' from 89.61.153.163
E 2009/05/16 04:56:31 YACY yacyClient.queryUrlCount error asking peer '194-116-84-11-248dpnoe99':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
E 2009/05/16 06:58:00 SERVER receive interrupted - exception 2 = Connection reset
E 2009/05/16 07:23:36 SERVER receive interrupted - exception 2 = Connection reset
I 2009/05/16 08:40:59 YACY hello: responded remote junior peer '194-116-84-11-248dpnoe99' from 194.116.84.11
E 2009/05/16 11:15:04 YACY yacyClient.queryUrlCount error asking peer 'vega-1':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/16 11:15:08 YACY hello: responded remote junior peer 'vega-1' from wernernetzwerk.homedns.org
D 2009/05/16 19:36:29 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/16 21:19:45 CRAWLER LOCALCRAWL[23, 7273642, 0, 53]: URL=http://us.imdb.com/keyword/blood/character-name-in-title/hit-by-car/, initiator=KgW2S9erypAA, crawlOrder=true, depth=8, crawlDepth=15, must-match=.*, must-not-match=, permission=true
I 2009/05/16 21:27:47 BOOKMARKS autoReCrawl - processing: /autoReCrawl/daily
I 2009/05/16 21:39:51 CRAWLER LOCALCRAWL[23, 7273642, 0, 53]: enqueued for load http://us.imdb.com/keyword/blood/character-name-in-title/hit-by-car/ [G3Ks9pVw8WSY]
D 2009/05/16 21:40:29 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/16 21:43:44 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/16 21:47:10 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/16 21:49:03 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/16 22:21:05 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/16 22:48:09 YACY yacyClient.queryUrlCount error asking peer 'aquayacytest':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/16 22:48:14 YACY hello: responded remote junior peer 'aquayacytest' from 92.105.5.205
D 2009/05/16 22:55:23 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
D 2009/05/16 23:04:57 CRAWLER remoteCrawlLoaderJob: a local crawl is running, omitting processing
E 2009/05/16 23:45:30 YACY yacyClient.queryUrlCount error asking peer 'tp-guybrush242':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/17 00:10:03 YACY hello: responded remote junior peer 'tp-guybrush242' from 91.14.125.199
I 2009/05/17 03:37:34 PLASMA Rejecting RWIs from peer Va2sqig3NU__:NULL. Not granted. Other Peer is unknown
E 2009/05/17 03:39:51 YACY yacyClient.queryUrlCount error asking peer 'yacy-suche_home':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
I 2009/05/17 03:39:57 YACY hello: responded remote junior peer 'yacy-suche_home' from 95.119.151.58
I 2009/05/17 04:25:36 HTTPD Client unexpectedly closed connection... (Connection reset), client = 61.191.56.150
I 2009/05/17 04:41:09 PLASMA Rejecting RWIs from peer Va2sqig3NU__:NULL. Not granted. Other Peer is unknown
I 2009/05/17 05:09:58 YACY hello: changing remote peer 'tp-guybrush242' [91.14.125.199] peerType from 'senior' to 'junior'.
E 2009/05/17 07:57:14 YACY yacyClient.queryUrlCount error asking peer 'aquayacytest':org.apache.commons.httpclient.ConnectTimeoutException: The host did not accept the connection within timeout of 5000 ms
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon PCA42 » So Mai 17, 2009 10:32 am

Das ist doch mal was. Wie es aussieht, gibt es wohl grundsätzliche Probleme mit der Internet-Verbindung (viele Timeouts). Wie sieht es mit der verfügbaren Bandbreite aus?
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Mein Peer ist faul

Beitragvon freq.9 » Mi Mai 20, 2009 12:03 pm

Also eigentlich sollte es damit keine Probleme geben. Ich will es nicht ausschliessen, aber ich lade eigentlich durchgehend mit 10MByte/s. Zudem lief mein Peer ja schonmal ne Woche durchgehend ohne Probleme. Kann sich natürlich in den letzten Tagen/Wochen geändert haben, aber so eingeschränkt, dass keine Anfragen mehr durchgehen, sollte meine Bandbreite nicht sein.

// Edit: Und wenn: wie könnte ich es kontrollieren?
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon PCA42 » Mi Mai 20, 2009 3:11 pm

freq.9 hat geschrieben:Und wenn: wie könnte ich es kontrollieren?

Versuche deinen Peer von außen zu erreichen. Führe Suchanfragen durch und beobachte dabei, ob auch von anderen Peers Ergebnisse geliefert werden. Wenn dies zuverlässig und schnell funktioniert dann müssen wir mal weiterschauen.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Mein Peer ist faul

Beitragvon freq.9 » Mi Mai 20, 2009 3:19 pm

Aber die Bandbreite muss ja nicht ausgeschöpft sein, wenn ich YaCy nicht mehr aufrufen kann. Da kann genauso gut der Peer sich nen Wolf gefressen haben oder was auch immer. Zumal es bei meinem Peer "früher" so war, dass ich das Interface nicht mehr aufrufen konnte, obwohl der Peer weiterhin fleißig am crawln war.

Aber falls es weiterhilft: Ich war nun schon fast 2 Wochen nicht mehr so wirklich im Interface, da ich da meist schon kurz nach dem Start von YaCy nicht mehr reinkam, weil da irgendwas hängt.
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon freq.9 » Sa Mai 23, 2009 1:47 pm

Habe mal "imdb.com" in die Blacklist eingetragen um mal zu schauen, ob sich dadurch mein Peer sich wieder fängt. Sah auf den ersten Blick auch so aus, da die Statistiken sich nach oben korrigiert haben. Also ich habe nun auch ein paar mehr Wörter im Index und nicht nur eine Hand voll. Genaue Zahl habe ich nun nicht zur Hand, aber es war eine 2 mit vielen weiteren Zahlen dahinter.

Aber weiterhin hängt sich der Peer nach einer Zeit (~1 Stunde, nach Start des GUI) wieder auf. Also das Problem besteht immernoch.
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon dulcedo » Fr Mai 29, 2009 4:07 am

Ich habe nun einen ähnliche Peer: 2000 Worte bei 10mio URLs.

Der Peer wurde als 0.80(5962) installiert und in Standardeinstellungen 10 Tage laufen lassen. Er macht sichtlich DHT und bearbeitet den einen dailyCrawl den er hat, die 10mio URLs dürften Stimmen. Aber wo sind die Worte? BS ist Debian64. Wer reinsehen möchte, PN bitte.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Mein Peer ist faul

Beitragvon freq.9 » Fr Mai 29, 2009 1:26 pm

dulcedo hat geschrieben:Ich habe nun einen ähnliche Peer: 2000 Worte bei 10mio URLs.

Der Peer wurde als 0.80(5962) installiert und in Standardeinstellungen 10 Tage laufen lassen. Er macht sichtlich DHT und bearbeitet den einen dailyCrawl den er hat, die 10mio URLs dürften Stimmen. Aber wo sind die Worte? BS ist Debian64. Wer reinsehen möchte, PN bitte.


Bei mir kamen die, nachdem ich imdb.com auf die Blacklist gesetzt habe. Ist zwar eher merkwürdig (sicherlich hatte es einen anderen Grund), aber scheinbar waren die Daten vorhanden, wurden nur halt nicht in der Grafik angezeigt. Irgendwas scheint da jedenfalls nicht richtig zu laufen.

@Developer: Könnt ihr da nicht mal bitte schauen? Mein Peer will einfach nicht mehr laufen und ich weiß da nicht mehr weiter :(
freq.9
 
Beiträge: 77
Registriert: Mo Apr 20, 2009 10:55 am

Re: Mein Peer ist faul

Beitragvon Lotus » Fr Mai 29, 2009 1:45 pm

dulcedo hat geschrieben:die 10mio URLs dürften Stimmen. Aber wo sind die Worte?

Nach meiner Beobachtung scheinen die manchmal in einem Cache zu verschwinden, wo sie nicht mitgezählt werden.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste