Krabbeln Zeitungen, fremde Details

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Krabbeln Zeitungen, fremde Details

Beitragvon cnouvelle » Mi Mär 07, 2012 1:17 am

Ich habe nach Wegen, um Zeitungen gehören gesucht, so dass Suchergebnisse können aktuellere Informationen enthalten. Eine Sache, die zum Crawlen von Zeitungen ärgert ist, dass der Text eines bestimmten Artikels in der Regel wird von vielen fremden Details, wie Schlagzeilen für andere Waren und auch andere Seiten, die Details, die über viele Artikel wiederkehren umgeben. Ich denke, das muss die Genauigkeit der Recherchen zu verringern. Ich schaute auf den HTML-Quellcode der Artikel, und ich bin zu bemerken, dass Artikel zu Google-related tags zu haben scheinen. Ich wäre nicht überrascht, wenn Google hat einen Deal mit Zeitungen gemacht, um verschiedene Tags enthalten, so dass die Google-Crawler, wo man nach dem wahren Informationen zu suchen wissen werden. Also google kann einen Vorteil für sich selbst angeordnet haben.

--

crawling newspapers, extraneous details

I've been looking at ways to include newspapers, so that search results can include more timely info. One thing that vexes about crawling newspapers is that the text of a given article is normally surrounded by many extraneous details, such as headlines for other articles and even other sites, details that recur over many articles. I think this must decrease the accuracy of searches. I looked at the html source of articles, and I am noticing that articles seem to have google-related tags. I wouldn't be surprised if google has made a deal with newspapers, to include various tags so that the google crawlers know where to look for the true information. So google may have arranged an advantage for themselves.
cnouvelle
 
Beiträge: 32
Registriert: Mi Feb 29, 2012 12:42 pm

Re: Krabbeln Zeitungen, fremde Details

Beitragvon Lotus » Do Mär 08, 2012 1:50 pm

This is known and was suggested some time ago. I'll put you the german discussion link: viewtopic.php?f=9&t=1810

PS: auto-translation is very (!) ugly. topics are like from spammers. you will never get an answer. please stay by english only.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste