Seite 1 von 1

WARC-Import

BeitragVerfasst: Di Mai 16, 2017 8:47 pm
von LA_FORGE
Hi,

ich habe mein erstes WARC-Archiv erstellt und wollte es in einen meiner Peers importieren mit der neuen Funktion die ihr eingebaut habt. Irgendwo hängt es noch. Hier mein WARC:

https://archive.org/details/commandlinefu.warc

Auszug aus dem Log:

Code: Alles auswählen
I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cd/rss - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/view/11186/bytebeat - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/tagged/2292/bytebeat - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cc/rss - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cat/425 - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cat/50 - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/using/cat/25 - Denied_(pragma_no_cache)

I 2017/05/16 15:22:10 REJECTED http://www.commandlinefu.com/commands/view/13653/search-system-log-for-spamassassin-score-and-list-only-15th-column - Denied_(pragma_no_cache)



Viele Grüße

LA_FORGE

Re: WARC-Import

BeitragVerfasst: Fr Mai 19, 2017 10:12 am
von luc
Hi LA_FORGE,
it looks like this is because currently Warc Import is using the same indexing rules as YaCy proxy. I am not sure this was the intention of reger. I asked him on GItHub for more details (see commit 510f11d comment).

Best regards

Re: WARC-Import

BeitragVerfasst: Mo Mai 22, 2017 2:03 am
von reger
teste nach letztem commit (mit den von @luc empfohlenen Korrekturen) Dein
https://archive.org/download/commandlin ... fu.warc.gz

.... läuft.

Re: WARC-Import

BeitragVerfasst: Mo Mai 22, 2017 7:53 am
von LA_FORGE
Thank you very much / Vielen Dank