[Brainstorming] Newsportal mit YaCy

Ideen und Vorschläge sind willkommen.

[Brainstorming] Newsportal mit YaCy

Beitragvon Low012 » Di Jul 01, 2008 3:07 pm

Mal wieder eine wirre Idee, direkt aus meinem Hirn hinein ins Forum:

Wenn es mit YaCy möglich wäre, sich die zuletzt gecrawlten Seiten oder die zuletzt geänderten Seiten ausgeben zu lassen (idealerweise noch unter Verwendung von Filtern und Suchwörtern), wäre es sehr einfach möglich, ein persönliches Newsportal wie z.B. http://news.google.de/ aufzubauen.

Man müsste nur halbwegs regelmäßig (z.B. mit CRON) die für einen selbst interessanten Newsseiten crawlen (eventuell mit passende Filtern, um auch wirklich nur Nachrichten zu erhalten) und könnte dann Ergebnisse als XML-Datei aus sienem Peer ziehen und in ein eigenes Seitendesign einpassen.

Muss dafür noch etwas geändert werden oder geht das vielleicht sogar jetzt schon?
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Lotus » Di Jul 01, 2008 4:06 pm

Das ist in der Tat schon möglich. Einfach den Suchoperator RECENT benutzen, dann wird's nach Datum sortiert.
Trickreich ist nur die Indexierung nach Datum. Dafür wäre ein RSS-Feed optimal.

Da habe ich übrigens gerade noch einen kleinen "Bug" gefunden: die Suchergebnisse die aufgrund der späten Antworten anderer Peers zu weit unten gerankt sind, werden aus dem Cache bei einer neuen Suche wieder genauso (falsch) gerankt.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Orbiter » Mi Jul 02, 2008 10:36 am

das ist kein Bug sondern so gewollt, damit die Ergebnisliste beim Durchblättern durch die verschiedenen Ergebnisseiten stabil bleibt.

Lotus hat geschrieben:Das ist in der Tat schon möglich. Einfach den Suchoperator RECENT benutzen, dann wird's nach Datum sortiert.

Das Sortierdatum ist in diesem Fall das Datum, das der Webserver als last-modified zurück gibt. Es ist nicht das Datum des Crawlens, aber oft sind die Crawl- und Modified-Daten gleich. Aber ich denke das last-modified leistet das gewünschte, oder?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Low012 » Mi Jul 02, 2008 10:50 am

Ja, "last modified" würde ich für eine Nachrichtensuche sowieso als nützlicher ansehen als den Zeitpunkt, an dem der Crawler vorbei gekommen ist.

Der RECENT-Modifier ist schonmal sehr nützlich, wenn man eine Suchfunktion innerhalb der Nachrichten anbieten möchte. Was für den Aufbau einer Startseite mit aktuellen Nachrichten oder einer Übersicht nach Veröffentlichungszeitpunkt (z.B. so: http://www.heise.de/newsticker/) fehlt, ist eigentlich nur eine Möglichkeit, nach dem Datum (ohne Suchworte) zu selektieren.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Orbiter » Mi Jul 02, 2008 1:26 pm

Du möchtest ein explizites Datum angeben nach dem du selektieren willst?
Leider gibt SRU dafür keine Syntax vor, aber in ListRecords vom OAI-PMH Protokol gibt es 'from' und 'until'. Ich versuche ja nun immer solche Standards bei neuen Parametern zu nutzen. Wäre das das, was du brauchst?

Wenn du so ein Portal machst, kannst du da ja auch das Widget für die News anbieten, das Apfelmaennchen gebaut hat: viewtopic.php?p=7869#p7869
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Low012 » Mi Jul 02, 2008 1:56 pm

Orbiter hat geschrieben:Du möchtest ein explizites Datum angeben nach dem du selektieren willst?

Genau! Ist das mit YaCys Datenstukturen überhaupt effizient möglich? Über das Datum der letzten Änderung gibt es doch keinen Index, oder?

Wenn du so ein Portal machst, kannst du da ja auch das Widget für die News anbieten, das Apfelmaennchen gebaut hat: viewtopic.php?p=7869#p7869

Ich bin mir derzeit noch nicht im Klaren darüber, ob es eventuelle rechtiche Probleme geben könnte, wenn man eine entsprechende Seite öffentlich zugänglich anbieten würde. Ich würde aber zumindest mal ein Newsportal basteln und eine Anleitung veröffentlichen. Wer sowas dann öffentlich anbieten wollen würde, müsste dann halt vorher bei den entsprechenden Newsseiten um Erlaubnis bitten, aber YaCy könnte die benötigten Funktionen dann immerhin zur Verfügung stellen und wir hätten einen neuen Usecase.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Orbiter » Mi Jul 02, 2008 2:05 pm

Low012 hat geschrieben:
Orbiter hat geschrieben:Du möchtest ein explizites Datum angeben nach dem du selektieren willst?

Genau! Ist das mit YaCys Datenstukturen überhaupt effizient möglich? Über das Datum der letzten Änderung gibt es doch keinen Index, oder

Klar geht das, es ist der gleiche Fall wie wenn man ein Constraint benutzt (haben wir bislang nur für index-pages). Die RWIs haben an jedem Eintrag ein Datum, das aber nur tagesgenau ist. Wenn ein Wort-Index geladen wurde (also alle x Referenzen auf einmal) werden die ja erst mal nach Ranking sortiert (also bis zu 64000 Einträge) und dabei auch die Constraints angewendet. Dort könnte man die Referenzen, die zu alt sind rausschmeissen, und damit den Sortier-Algorithmus sogar beschleunigen (hat ja weniger zu sortieren).
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: [Brainstorming] Newsportal mit YaCy

Beitragvon Lotus » Mi Jul 02, 2008 4:54 pm

Orbiter hat geschrieben:Das Sortierdatum ist in diesem Fall das Datum, das der Webserver als last-modified zurück gibt. Es ist nicht das Datum des Crawlens, aber oft sind die Crawl- und Modified-Daten gleich. Aber ich denke das last-modified leistet das gewünschte, oder?

Super!
Dann wäre auch dies zumindest auf letzter Linkebene problemlos einzubinden: viewtopic.php?p=5116#p5116

Wäre es nicht auch sinnvoller, die Suchergebnisse mit dem Webserver-Datum auszugeben, wenn dieses nicht 1970 ist?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast