Crawlen nach RSS-Feeds?

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Crawlen nach RSS-Feeds?

Beitragvon dürer » Di Sep 25, 2012 2:07 pm

Hallo ich bins schon wieder mit einem Problem dass ich einfach nicht lösen kann.
Zusätzlich zu den Seitencrawls möchte ich regelmäßige Crawls machen, die Inhalte per RSS-Feed aktivieren. dazu habe ich eine ganze Liste mit RSS-Feeds. RSS ist im Parser aktiviert. Ich habe keine Möglichkeit gefunden, einen RSS-Crawl zu machen. Bei RSSImport bekomme ich ungefähr 100000 Feeds angeboten, von jeder gecrawlten Seite 100 Unterfeeds.
Kann man auch einzelne Feeds hinzufügen bzw noch besser. Eine Liste mit Feeds übergeben, die dann stündlich gecrawled werden?

Vielen Dank für die Antworten ;)
dürer
 
Beiträge: 11
Registriert: So Feb 05, 2012 5:49 pm

Re: Crawlen nach RSS-Feeds?

Beitragvon Orbiter » Di Sep 25, 2012 3:24 pm

die '100000 Feeds' sind nur welche die automatisch detektiert wurden, aber du kannst natürlich einfach in die Zeile "URL of the RSS feed" deinen Feed eintragen.
Dann auf "Show RSS Items" klicken. Die Liste der in diesem Feed verlinkten Dokumente erscheint dann, die musst du aber auch nicht einzeln anklicken wenn du sie haben willst, sondern als nächstes einfach auf "Add all Items to Index" klicken. Darunter steht noch 'once' oder 'scheduled'; du kannst einfach mal auf 'once' stehen lassen und das ganze dann auch in der API Steering zu einer wiederholten Aktion machen.

Eine Demo davon habe ich beim Vortrag auf der Campus Party gegeben, das sieht man hier:
http://www.youtube.com/watch?v=tnpBNtqtRew#t=1500s
ab Minute 25. Ab Minute 26 schwenkt die Kamera auch auf den Bildschirm, da kannst du den Vorgang gut sehen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawlen nach RSS-Feeds?

Beitragvon dürer » Sa Sep 29, 2012 8:13 am

Vieln Dank für Deine Antwort.
Es funktioniert genau so, wie beschrieben, auch wenn ich keine Möglichkeit gefunden habe, meine schöne Liste mit ca 100 RSS-Feeds schlicht zu importieren, sondern alle Feeds manuell eingegeben habe. :lol:
dürer
 
Beiträge: 11
Registriert: So Feb 05, 2012 5:49 pm

Re: Crawlen nach RSS-Feeds?

Beitragvon Orbiter » Mi Okt 17, 2012 5:53 pm

ich hab jetzt ein shell-script im bin-Verzeichnis hinzugefügt um sehr einfach rss feeds hinzufügen zu können: bin/addrss.sh
das einfach mit der URL des rss feeds aufrufen.

Das geht aber nicht automatisch in den Scheduler, ich empfehle das für ein externes Scripten im Zusammenhang mit cronjobs zu benutzen. Jedenfalls kannst du da nun sehr einfach hunderte von rss-feeds per shellscript reinpusten.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron