[INVALID] NoLoad-Queue crawlt mit > 6.000 PPM

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

[INVALID] NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Quix0r » Fr Dez 17, 2010 12:11 pm

Dazu erstmal ein Logfile:
Code: Alles auswählen
I 2010/12/17 12:03:25 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/com/pornxweb/
I 2010/12/17 12:03:25 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/com/pornxweb/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:25 PLASMA Excluded 0 words in URL http://dnstree.com/com/pornxweb/
W 2010/12/17 12:03:25 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/com/pornxweb/ CONFLICTING: gl (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:25 PLASMA *Indexed 4 words in URL http://dnstree.com/com/pornxweb/ [U6DtNuerGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 58 bytes | Anchors: 0
        LinkStorageTime: 2 ms | indexStorageTime: 0 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/au/com/outdoorstyleoz/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/au/com/outdoorstyleoz/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/au/com/outdoorstyleoz/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/au/com/outdoorstyleoz/ CONFLICTING: pt (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 5 words in URL http://dnstree.com/au/com/outdoorstyleoz/ [g6CWDNerGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 76 bytes | Anchors: 0
        LinkStorageTime: 0 ms | indexStorageTime: 0 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/net/rsib/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/net/rsib/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/net/rsib/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/net/rsib/ CONFLICTING: fy (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 5 words in URL http://dnstree.com/net/rsib/ [_c6KQ_erGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 54 bytes | Anchors: 0
        LinkStorageTime: 0 ms | indexStorageTime: 1 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/com/pirats/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/com/pirats/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/com/pirats/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/com/pirats/ CONFLICTING: pl (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 4 words in URL http://dnstree.com/com/pirats/ [t3QhWuerGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 54 bytes | Anchors: 0
        LinkStorageTime: 2 ms | indexStorageTime: 3 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/uk/co/qedendo/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/uk/co/qedendo/, STACKING TIME = 0, PARSING TIME = 1
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/uk/co/qedendo/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/uk/co/qedendo/ CONFLICTING: eo (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 6 words in URL http://dnstree.com/uk/co/qedendo/ [rNZ3gperGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 64 bytes | Anchors: 0
        LinkStorageTime: 0 ms | indexStorageTime: 0 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/se/porn-hub/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/se/porn-hub/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/se/porn-hub/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/se/porn-hub/ CONFLICTING: es (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 6 words in URL http://dnstree.com/se/porn-hub/ [5kThMOerGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 60 bytes | Anchors: 0
        LinkStorageTime: 0 ms | indexStorageTime: 0 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/org/gxmail/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/org/gxmail/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/org/gxmail/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/org/gxmail/ CONFLICTING: la (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 5 words in URL http://dnstree.com/org/gxmail/ [dN9bLberGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 58 bytes | Anchors: 0
        LinkStorageTime: 1 ms | indexStorageTime: 0 ms
I 2010/12/17 12:03:26 CrawlQueues placed NOLOAD URL on indexing queue: http://dnstree.com/com/carcaoltv/
I 2010/12/17 12:03:26 PLASMA CRAWL: ADDED 0 LINKS FROM http://dnstree.com/com/carcaoltv/, STACKING TIME = 0, PARSING TIME = 0
I 2010/12/17 12:03:26 PLASMA Excluded 0 words in URL http://dnstree.com/com/carcaoltv/
W 2010/12/17 12:03:26 PLASMA LANGUAGE-BY-STATISTICS: http://dnstree.com/com/carcaoltv/ CONFLICTING: fo (the language given by the TLD is en), corrected using the TLD
I 2010/12/17 12:03:26 PLASMA *Indexed 4 words in URL http://dnstree.com/com/carcaoltv/ [AJy36uerGRXY]
        Description: 
        MimeType: application/octet-stream | Charset: null | Size: 60 bytes | Anchors: 0
        LinkStorageTime: 1 ms | indexStorageTime: 3 ms

Das ging schon seit ein paar Sekunden so und ich musste den Crawler stoppen. Sonst kommt noch YaCy schnell auf die Sperrliste. :(

Edit: Ist kein Bug. Daher INVALID.
Zuletzt geändert von Quix0r am Mo Dez 20, 2010 8:56 pm, insgesamt 1-mal geändert.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Lotus » Fr Dez 17, 2010 2:10 pm

Sieht doch gut aus. Noload hört sich an nach wird nicht geladen, und der Mimetype lässt darauf schließen, dass nur die URL erfasst wurde.
Wobei ich mit dem Browser dort einen anderen Mimetype bekomme (text/html).
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Quix0r » Fr Dez 17, 2010 2:25 pm

Die URLs in der Datenbank nehmen aber auch rapide zu. Also werden die Seiten doch gecrawlt?
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Orbiter » Fr Dez 17, 2010 4:24 pm

Die NoLoad Queue ist in der letzten Woche hinzugekommen um das Massenindexieren von FTP Servern beim 27C3 zu ermöglichen. Dabei geht es darum dass ich zum Indexieren von großen Dateien diese nicht runterladen will. Das wird nun so gemacht dass alle Dateien die über der maximalen Dateigröße sind oder wo es keinen parser gibt dort rein kommen.

Die noload Queue wird ohne Pause abgearbeitet weil hier kein Traffic entsteht. Keine der noload-urls werden von anderen Servern nachgeladen. Indexiert wird nur der Dateinamen, der Pfad und innerhalb der Wörter eines Dateinamens wird dieser nun sogar nach CamelCase durchsucht und zerlegt.

Bei mir geht das auch mit über 40000 PPM durch, sind ja nur kleine Datenstücke.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Quix0r » Fr Dez 17, 2010 5:08 pm

Ah, vielen Dank Michael fuer das Augenoeffnen, ich bekam schon einen Schreck... :o :shock:

Woran ich dachte (damit keine Verwirrung entsteht):
- URL wird in NoQueue eingefuegt (damit sie erstmal nicht gecrawlt wird)
- Nach ein paar URLs stellt der <hier YaCy's KI einfuegen> fest, dass diese doch aufrufbar ist und laedt sie nach

Gleich mal mit gefragt: Wie sieht das mit dem RSS-Consumer aus? Gleiches Prinzip (URL wird mit bereits aus dem Feed bekannten Content verknuepft) oder wird die URL (Artikel-URL) sofort nachgeladen? Der RSS-Consumer (per Scheduler gestartet) sorgt auch oefters fuer einen sprunghaften PPM-Anstieg.
Quix0r
 
Beiträge: 1347
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Orbiter » Fr Dez 17, 2010 6:34 pm

bei noload gehts nicht darum nicht-ladbare URLs auszublenden oder anders in den Index zu schieben. Was nicht geladen werden kann soll auch nicht in den Index.
Bei noload gehts darum den Traffic erst gar nicht zu erzeugen, vor allem weil man die Inhalte eh nicht parsen kann. Wie sonst soll man die massenhaft vorkommenden Filmdaten bei so einem Event wie 27C3 sonst indexieren.

RSS ist ähnlich: da steck in jedem RSS Entry so viel drin dass man das zum Indexieren hiernehmen kann. So weit ich mich erinnere wird da auch nicht geladen. Allerdings werden die Inhalte dann bei der Suche verifiziert, da es dann ein Nachladen gibt.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: NoLoad-Queue crawlt mit > 6.000 PPM

Beitragvon Lotus » Fr Dez 17, 2010 8:50 pm

Und wieso liegt hinter den obigen Links im Log eine HTML-Datei, die offenbar indexiert werden kann?
Werden die Links der letzten Stufe +1 in die Noload Queue sortiert oder ist das ein noch einzubauendes Feature?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron