Crawler Optimieren für Rss Feeds

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Crawler Optimieren für Rss Feeds

Beitragvon GEESUZ » Mo Jan 12, 2015 10:44 am

Hallo,

ich benutze YaCy um aus bestimmten Links ALLE RSS Feeds zu finden.

Das sind dann manchmal 30-50 links die gecrawlt werden
das dauert natürlich alles seine Zeit und viel Müll wird auch gecrawled

nun meine Frage: Wie kann ich den "Experten Crawl Start" Einstellen das wirklich NUR Rss Feeds Indexiert werden?
mit Regex z.B.?

läuft dann der Crawler schneller da er nur nach Rss feeds sucht?

danke im vorraus :)

Gee
GEESUZ
 
Beiträge: 9
Registriert: Do Jan 10, 2013 12:13 pm

Re: Crawler Optimieren für Rss Feeds

Beitragvon Orbiter » Mo Jan 12, 2015 12:04 pm

RSS Feed Links sollten eigentlich gar nicht in den Index kommen. RSS Links sollten im html header als Link-Tag vorkommen, wie hier im Forum:
Code: Alles auswählen
<link rel="alternate" type="application/atom+xml" title="Feed - forum.yacy.de" href="http://forum.yacy-websuche.de/feed.php" />
<link rel="alternate" type="application/atom+xml" title="Feed - Neuigkeiten" href="http://forum.yacy-websuche.de/feed.php?mode=news" />
<link rel="alternate" type="application/atom+xml" title="Feed - Neue Themen" href="http://forum.yacy-websuche.de/feed.php?mode=topics" />
<link rel="alternate" type="application/atom+xml" title="Feed - Aktive Themen" href="http://forum.yacy-websuche.de/feed.php?mode=topics_active" />

Wenn so eine Deklaration im html drin ist, merkt sich YaCy diesen und schreibt ihn in die rss-Datenbank, welche du unter /Load_RSS_p.html abrufen kannst. Dort kannst du auch von jedem rss einen rss-Importer starten, der auch automatisch wiederholt werden kann.

Einen Export der RSS-Datenbank kannst du so machen:
http://localhost:8090/Tables_p.xml?tabl ... 00&search=
Orbiter
 
Beiträge: 5771
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler Optimieren für Rss Feeds

Beitragvon GEESUZ » Mo Jan 12, 2015 1:00 pm

ahh ok dachte es gibt irgendwie die möglichkeit den Crawler nur auf RSS suche anzusetzen und damit zu beschleunigen

ui das is auch gut, ich kann also den Importer auf bestimmte RSS feeds setzen und damit den Feed aktuell halten?
verstehe ich das richtig?

thx
GEESUZ
 
Beiträge: 9
Registriert: Do Jan 10, 2013 12:13 pm

Re: Crawler Optimieren für Rss Feeds

Beitragvon Orbiter » Mo Jan 12, 2015 3:27 pm

genau! Dazu gibts tatsächlich auch schon ein Tutorial, das ist Teil des 'Secret Agents' Video:
Orbiter
 
Beiträge: 5771
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler Optimieren für Rss Feeds

Beitragvon GEESUZ » Mi Jan 14, 2015 4:58 pm

sehr nice !

trotzdem glaube ich nicht das es unmöglich ist den crawler irgendwie zu konfigurieren
das er z.B. nur nach den html tag rss/rdf/air/atom usw. sucht und wenn er nichts gefunden hat er die seite nicht Indexiert
und zur nächsten springt usw.

WENN dann müsste er doch um längen schneller crawlen

oder hab ich da einen Denkfehler?
GEESUZ
 
Beiträge: 9
Registriert: Do Jan 10, 2013 12:13 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast