Crawlen um RSS-Feeds von URLs zu bekommen

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Crawlen um RSS-Feeds von URLs zu bekommen

Beitragvon maaax89 » Do Okt 29, 2015 4:17 pm

Hey liebe Community,
ich habe ein Frage zum crawlen mit Yacy. Ich nutze die Anwendung um aus diversen Onlinequellen die jeweiligen RSS-Links automatisch zu beziehen. Dies ist mit den gegebenen Funktionen von Yacy ohne Probleme möglich. Allerdings sind mir in letzter Zeit häufiger URL-Seiten aufgefallen, die nicht vollständig durchsucht worden sind.
Diese Seiten haben RSS-Feeds, welche nicht vom Yacy-Crawler gefunden wurden.

Z.B. " http://www.noticiasdenavarra.com ", diese Seite besitzt einige RSS-Feedlinks, die in einer Tabelle aufgelistet stehen (" http://www.noticiasdenavarra.com/corpor ... n-por-rss/ "). Die hier verlinkten Feeds haben auch alle den gleichen Stamm "z.B. http://www.noticiasdenavarra.com/rss/ribera.xml". Ich habe bereits einige verschiedene Einstellungsvarianten beim Expertencrawling probiert, aber leider ohne den gewünschten Erfolg. Ich habe verschieden Crawling Tiefen probiert und auch die robots.txt berücksichtigt, hier stehen keine Einschränkungen für diesen Fall.

Könnt ihr mir weiter Helfen und mögliche Fehlerquellen bei mir benennen. Oder gibt es da technische Einschränkungen weshalb manche Seiten nicht voll funktionieren?

Das ähnliche Problem habe ich auch mit einer Menge von Blogspot-Seiten. Ich habe eine Liste mit mehreren Blogspot-Auftritten in Yacy crawlen lassen und wollte dann die Feedlinks exportieren. Alle dieser Blogspot-Seiten besitzen mindestens einen RSS-Feed, aber Yacy fand lediglich bei einem Viertel welche. Auch hier kann die robots.txt als Fehlerquelle ausgeschlossen werden.

Ich bin mit meinem Latein am Ende.... Vielen Dank

lg max
maaax89
 
Beiträge: 1
Registriert: Mi Okt 28, 2015 4:07 pm

Re: Crawlen um RSS-Feeds von URLs zu bekommen

Beitragvon biolizard89 » So Dez 06, 2015 6:45 am

maaax89 hat geschrieben:Hey liebe Community,
ich habe ein Frage zum crawlen mit Yacy. Ich nutze die Anwendung um aus diversen Onlinequellen die jeweiligen RSS-Links automatisch zu beziehen. Dies ist mit den gegebenen Funktionen von Yacy ohne Probleme möglich. Allerdings sind mir in letzter Zeit häufiger URL-Seiten aufgefallen, die nicht vollständig durchsucht worden sind.
Diese Seiten haben RSS-Feeds, welche nicht vom Yacy-Crawler gefunden wurden.

Z.B. " http://www.noticiasdenavarra.com ", diese Seite besitzt einige RSS-Feedlinks, die in einer Tabelle aufgelistet stehen (" http://www.noticiasdenavarra.com/corpor ... n-por-rss/ "). Die hier verlinkten Feeds haben auch alle den gleichen Stamm "z.B. http://www.noticiasdenavarra.com/rss/ribera.xml". Ich habe bereits einige verschiedene Einstellungsvarianten beim Expertencrawling probiert, aber leider ohne den gewünschten Erfolg. Ich habe verschieden Crawling Tiefen probiert und auch die robots.txt berücksichtigt, hier stehen keine Einschränkungen für diesen Fall.

Könnt ihr mir weiter Helfen und mögliche Fehlerquellen bei mir benennen. Oder gibt es da technische Einschränkungen weshalb manche Seiten nicht voll funktionieren?

Das ähnliche Problem habe ich auch mit einer Menge von Blogspot-Seiten. Ich habe eine Liste mit mehreren Blogspot-Auftritten in Yacy crawlen lassen und wollte dann die Feedlinks exportieren. Alle dieser Blogspot-Seiten besitzen mindestens einen RSS-Feed, aber Yacy fand lediglich bei einem Viertel welche. Auch hier kann die robots.txt als Fehlerquelle ausgeschlossen werden.

Ich bin mit meinem Latein am Ende.... Vielen Dank

lg max


Interestingly, when I visit http://www.noticiasdenavarra.com/ in TorBrowser, I do get an option to "Subscribe to this page", but clicking it returns me to the home page rather than taking me to an RSS feed. So, I conclude that either the website is broken and YaCy is working as intended, or TorBrowser has a bug in handling RSS feeds as well. (Hard to be sure which is the case.)

Cheers.
biolizard89
 
Beiträge: 61
Registriert: Do Jan 03, 2013 12:42 am


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast