yacy Autocrawl

Ereignisse, Vorschläge und Aktionen

yacy Autocrawl

Beitragvon Mars » Mi Okt 19, 2016 12:22 am

Hallo,

eigentlich beobachte ich die Community schon lange, aber hatte leider nie die richtige Maschine zum Mitmachen. Nun habe ich einen eigenen Server und habe ihn kräftig Crawlen lassen.
Um das Crawlen "etwas" zu beschleunigen habe ich den Server mit immer neuen URL's gefüttert. Da mir das etwas langweilig wurde habe ich ein kleines Python-Skript geschrieben das folgendes macht:

Alle 60 Sekunden (einstellbar):
    - aktuelle Statistik vom Crawlen holen
    - Ausgabe einiger Werte auf der Console
    - Wenn zuwenig Crawler laufen neue Crawler hinzufügen bis die gewünschte Zahl Crawler erreicht ist.

Das Skript nimmt als URL-Liste die Top 1 Million Domains von Alexa.

Vorraussetzungen:

Python >= 3.4
Die folgenden Python-Module kann man per PIP https://pip.pypa.io/en/stable/installing/ installieren oder eben mit der Paketverwaltung eurer Linux-Distro:
- requests
- xmltodict

Habe es noch nicht auf Windows testen können.

Benutzung:
Entpacken und dann "python yacy_autocrawl.py"

Also es würde mich freuen wenn jemand was damit anfangen kann und mir Kritik und Lob schreibt. :?: :!:


Gruß Mars
Dateianhänge
yacy_autocrawl.py.zip
(1.62 KiB) 93-mal heruntergeladen
Mars
 
Beiträge: 1
Registriert: Di Okt 18, 2016 11:28 pm

Re: yacy Autocrawl

Beitragvon luc » Mi Okt 19, 2016 5:33 pm

Hello Mars, I hope it is not a problem if I reply to you in English...

I just had a review to your script and didn't test it, but I like the idea. I planned to code a similar task using the less often updated but quite large DMOZ dumps...

I believe it would be even greater if this kind of import could be made directly with existing YaCy features. I was thinking of a scenario like this :
- in CrawlStartExpert.html one could enter the top-1m.csv.zip (the free alexa dump you use) URL as starting point
- zip and csv parsers would extract links from the dump and propose this as the link-list
- crawl could be started with the usual config options
- YaCy Process Scheduler (Table_API_p.html) then allow to replay the crawl at the desired rate

Theorically there would be not so much to do to make this possible : modifying YaCy csv parser to let it extract http links, and ensure good memory performance to handle the large links list...

What do you think about it?
luc
 
Beiträge: 291
Registriert: Mi Aug 26, 2015 1:04 am


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron