Aktualität der Suchergebnisse?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Aktualität der Suchergebnisse?

Beitragvon Huppi » Mi Aug 13, 2008 7:27 pm

Eine der für mich wichtigen Eigenschaften von YaCy ist das Auffinden von Seiten, die den Suchbegriff auch tatsächlich noch enthalten.

Bei einer Sciencenet-Suche nach "NKG2D" (aus meinem beruflichen Umfeld) stieß ich auf Seite 3 auf folgendes Ergebnis:
NKG2D - NKcells.info
http://www.innateimmunity.info/wiki/ind ... edirect=no
Fri, 09 Nov 2007 | YBR-15 | Info | Pictures


Nun weiß ich "zufällig", daß innateimmunity.info aktuell NKG2D nicht enthalten >kann<, da die Seite von mir gehostet ist und nach dem Update des Webservers noch nicht wieder neu eingerichtet ist.

Woran liegt es, daß dieses Ergebnis trotzdem angezeigt wird?

Ein weiteres Beispiel:
erste Fundstelle auf der ersten Seite:
Database error - NKcells.info
database error info nkcells
http://www.nkcells.info/wiki/index.php/NKG2D
Tue, 29 Jan 2008 | YBR-15 | Info | Pictures


Der Link ist wieder erreichbar, wird auch von mir gehostet. Das automatische Recrawling bringt aber kein aktualisiertes Ergebnis in die Datenbank. Weshalb?
Huppi
 
Beiträge: 898
Registriert: Fr Jun 29, 2007 9:49 am
Wohnort: Kürten

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Mi Aug 13, 2008 8:41 pm

Warum das bei der Suche nicht gefiltert wird weiß ich nicht. Das andere Problem ist das nur der suchende Peer mitbekommt wenn der Suchbegriff nicht mehr zur URL passt, heißt die befragten Peers schicken solange alte Daten bis diese zufällig (bei einer lokalen Suche) aufgefrischt werden. Mein Peer z.B. ist ein DHT-Peer, damit wird nicht gesucht und somit sammeln sich auch immer mehr "alte" Daten die auch nicht mehr gelöscht werden.

Wenn ich falsch liege ...
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon daburna » Mi Aug 13, 2008 9:24 pm

Aber werden nicht erst die Snippets erzeugt bzw. gecheckt, ob der Suchbegriff evt. nicht mehr auf der Seite vorhanden ist? Ich dachte, das wäre eines der super Features mit der Snippetfunktion.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: Aktualität der Suchergebnisse?

Beitragvon Orbiter » Mi Aug 13, 2008 10:19 pm

prinzipiell überprüft jeder Peer die Suchergebnisse. Die Such-Clients können aber in ihren Ergebnissen auch Snippets mit zurück schicken, und diese entstehen nur unter 2 Bedingungen:
- Das Ergebnis ist das top-1 Ergebnis oder ein Top-x Ergebnis das sehr schnell Snippets erzeugen konnte (100 ms glaube ich)
- Das Snippet wird _nicht_ online gezogen sondern ist im Cache

Wenn so ein Snippet beim suchenden Peer eintrudelt, wird es dort in den aktuellen Snippet-Cache übernommen, welcher aber flüchtig ist (RAM). Solch ein Snippet erscheint aber in den Ergebnissen. Das ganze habe ich so geplant, damit das ganze Snippet-fetching auch dezentralisiert werden kann. Dabei ist es aber allerdings tatsächlich möglich, das relativ alte snippets präsentiert werden.

Was hier noch fehlt ist eine Zeitbegrenzung in der Routine, die die remote snippets akzeptiert. Wie sollte die sein?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Aktualität der Suchergebnisse?

Beitragvon Low012 » Do Aug 14, 2008 9:43 am

Orbiter hat geschrieben:Was hier noch fehlt ist eine Zeitbegrenzung in der Routine, die die remote snippets akzeptiert. Wie sollte die sein?


Bei Newstickern kann sich der Inhalt einer Seite ja ziemlich schnell ändern, deshalb wäre ich für eine Gültigkeitsdauer im einstelligen Stundenbereich.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Do Aug 14, 2008 10:01 am

Und was ist mit dem Problem das sich immer mehr falsche Daten bei den Peers sammeln ?

Wenn der suchende Peer erst mehrere falsche Treffer aussortieren muss bremst das unnötig und das wird mit der Zeit ja noch schlimmer weil sich die falschen Daten vermehren.

Ich bin mir sicher das viele Peers falsche und damit unnötige Daten speichern was das ganze ja auch nicht schneller macht.

Ich hoffe mal das da was in Planung ist.


Nochmal ein Beispiel:

Peer P1 speichert für die URL X die Wörter A, B und C. P2 fragt P1 nach A und bekommt die URL X so wie es sein soll. Jetzt indiziert P2 die URL X und findet die Wörter D, E und F aber nicht mehr die Wörter A, B und C. Wie erfährt jetzt P1 das die Wörter A, B und C nicht mehr zur URL X gehören ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon Low012 » Do Aug 14, 2008 10:33 am

Zu deinem Beispiel:

Peer2 könnte Peer1 mitteilen, dass Wort A nicht mehr in X enthalten ist, aber er weiß ja nicht, dass Peer1 auch B und C mit X verknüpft hat. Peer1 müsste also alle Wort<->URL Verknüpfungen zu Dokument X überprüfen oder zunächst alle löschen und URL X neu indizieren.

Damit wäre aber nur der Müll weg, der beim Suchen als solcher erkannt wird. Wenn ein Dolument veraltet ist, aber nie nach den in ihm vorkommenden Wörteren gesucht wird, bleibt es derzeit ewig im Index. Da sind wir wieder an einer Stelle, die schon mehrfach diskutiert wurde, ohne dass wir hier zu einem Ergebnis gekommen sind: Wann sind Daten alt und was macht man mit ihnen? Ist es sinnvoll, Daten neu zu indexieren, wenn sie nie nachgefragt werden? Oft wohl nicht, aber vielleicht wird ein Thema, das ewig niemanden interessiert plötzlich aktuell!

Ein zweites Problem: Man könnte dann natürlich auch einen Peer so umprogrammieren, dass er allen anderen Peers ständig meldet, dass alle URLs, die sie als Ergebnisse liefern, veraltet sind, um sie so mit dem Neuindexieren ihrer Daten zu beschäftigen.

Ich weiß nicht, ob Michael zu dem Thema schon was in seinem "kleinen schwarzen Buch" hat, aber ich denke, dass da auf jeden Fall eine Menge dran hängt und es nicht ganz trivial sein dürfte, ein rundes Konzept zu entwickeln.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Do Aug 14, 2008 11:01 am

Schade ich dachte es hätte sich schon was geändert.
Low012 hat geschrieben:Zu deinem Beispiel:

Peer2 könnte Peer1 mitteilen, dass Wort A nicht mehr in X enthalten ist, aber er weiß ja nicht, dass Peer1 auch B und C mit X verknüpft hat.
Also ich finde das reicht schon, falsche Daten die nicht gesucht werden stören weniger. Wenn man bedenkt das die Peers mit falschen Daten unnötig Daten verschicken kann man lieber vorher Traffic verursachen um diese falschen Daten zu löschen. Hatte ja schon mal die Newsverteilung vorgeschlagen was aber viel zu langsam ist. Von daher würde ich vorschlagen wir machen etwas nach "shot! and forget", heißt der Peer der feststellt das ein Wort nicht mehr aktuell ist teilt allen aktiven Peers mit, das das Wort A und B nicht mehr zur URL X gehört. Alle deswegen weil die Seite ja durchaus auf jeden Peer vorhanden sein kann (proxy). Das dürfte kein großer Traffic sein, hilft aber die Suchergebnisse und vielleicht auch die Geschwindigkeit zu verbessern.

Der Peer der diese Information bekommt kann ja dann noch selbst entscheiden ob er dann diese Daten löscht oder nicht.

Das wurde ich mir zumindest wünschen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon liebel-lab » Do Aug 14, 2008 12:06 pm

...Apropos Aktualität....in der Biologie funktioniert das ganz pfiffig... :-) Jede Zelle hat einen timer....ist der abgelaufen wird die Zelle ersetzt. Ständig wird etwas umgebaut ...wird etwas "belastet" (z.Bsp Knochen/Muskel) verändert sich der timer...warum das Gelabere :-) ...ganz einfach ...Man könnte 2 Probleme das der Aktualität und das der "fehlenden Seiten" mit einem Trick beheben....

Vorschlag: Jede Seite bekommt beim crawlen einen timer von 15 Tagen mit...nach 15 Tagen aktiviert die seite einen recrawl mit den Bedingungen die zum Starten/indizieren der Seite gefuehrt hat... (also .z.bsp ".*.edu/.*" auf einem der sciencenet Rechner) a) Seite existiert: recrawl, timer auf 0, schauen ob es neue Seiten an diesem Teil des Suchbaumes gibt...

Das bringt mich zu dem zweiten Problem/Beobachtung: (ausnahmsweise kein neues Thema da es zu diesem Vorschlag gehört) Bsp: wir indizieren .*uni-karlsruhe.de/.*
ein Institut updated die Seiten ...wird aber von der Hauptseite erstg auf Ebene 3 Verlinkt....Recrawl via "uni-karlsruhe.de) bringt daher nicht...so fehlen immer Seiten im index...

Anstatt alle 3 Tage einen kompletten recrawl zu starten könnte dies der timer übernehmen....schoen langsam ..ab und zu..verjüngt sich der index automatisch ...ob nicht 5 tage oder 5 stunden fuer den timer besser waeren? ...wenn der timer zustimmung findet könnte man drüber nachdenken wie man diesen "bestraft/verzögert" oder "belohnt/verkürzt" z.bsp für newsticker auf denen es sichelrich sinn macht alle 4h zu crawlen....
Ein paar Ideen zum timer:
a) default 15 tage...verändert sich die seite beim ersten mal recrawl...timer 7 tage usw...je öfter sich eine seite verändert desto öfter kommt der crawler....limit 4h ..
(alles nicht neu..macht ja google meines wissens auch so)

probleme: jeder installiert ja yacy und startet eine wikipediasuche....evtl kann man das 100x übercrawlen damit auch in den griff bekommen?! Ideen? ....
(das ist jetzt aber wirklich ein neues Thema...)

...gruss vom KIT

Urban
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Do Aug 14, 2008 12:30 pm

Durch das Recrawlen verschwinden aber nicht die falschen Daten und ein komplettes löschen einer URL mit allen Wörtern dauert zu lange, weil ja alle RWIs nach der URL durchsucht werden müssen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon liebel-lab » Do Aug 14, 2008 12:47 pm

...was bedeutet "zu lange"? .....warum nicht den peer in "freien zeiten" mit "housekeeping" beschaeftigen....wie im richtigen Leben :-) ...
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Do Aug 14, 2008 12:54 pm

"zu lange" bedeutet mehrere Stunden, hängt aber auch von der DB-Größe, vorhandenen Speicher ... ab.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon Orbiter » Do Aug 14, 2008 4:46 pm

gute Ideen hier!

zum Thema 'Wann ist eine Seite veraltet?':

Low012 hat geschrieben:
Orbiter hat geschrieben:Was hier noch fehlt ist eine Zeitbegrenzung in der Routine, die die remote snippets akzeptiert. Wie sollte die sein?


Bei Newstickern kann sich der Inhalt einer Seite ja ziemlich schnell ändern, deshalb wäre ich für eine Gültigkeitsdauer im einstelligen Stundenbereich.

Es ist schwierig zu definieren wie man es misst mit welcher Frequenz sich eine Webseite ändert. Ich sehe hier 2 Ansätze das zu berechnen:
- TTL (Time-to-live) - Formel des Proxy: ist d = (Alter der Seite beim letzten lesen, d.h. Lesedatum - Seitendatum), dann ist das TTL = s * d, wobei s die persönliche Updategeschwindigkeit ist. Beispiel: ist s = 2, so gilt eine Seite, die beim Lesen drei Tage alt war nach drei weiteren Tagen als veraltet. Das funktioniert natürlich schlecht bei Seiten die aus einem CMS kommen und die immer das aktuelle Datum aufgeprägt bekommen, diese würden immer als veraltet gelten.
- ein lernender Algorithmus, wie in Urban umreisst. Ich habe das aber nicht im Detail verstanden. Urban, kannst du das nochmal genauer ausführen?

zum Thema 'Löschen von alten/falschen Daten':

Low012 hat geschrieben:Peer2 könnte Peer1 mitteilen, dass Wort A nicht mehr in X enthalten ist, aber er weiß ja nicht, dass Peer1 auch B und C mit X verknüpft hat.

Ja das mit dem direkten Mitteilen hatte ich so geplant indem ich einen Algorithmus verwenden wollte, den ich noch für eine neue Indexverteilung bauen wollte. Das sollte so gehen: der Index-Cache wird schon nach DHT-Targets organisiert, und man muss dann zum Verschicken nicht mehr vorher aus der DB sammeln. Den gleichen Algorithmus und auch ein dazu passendes neues Protokoll könnte man einfach mit dem Flag 'delete' versehen, und somit auch Wörter sammeln die nicht gefunden wurden und diese dann zielgerichtet an die DHT-Targets verschicken, die das angeht. Allerdings zeigt Marc hier auch genau das Problem das bei der Verknüpfung entsteht.

thq hat geschrieben:Hatte ja schon mal die Newsverteilung vorgeschlagen was aber viel zu langsam ist. Von daher würde ich vorschlagen wir machen etwas nach "shot! and forget", heißt der Peer der feststellt das ein Wort nicht mehr aktuell ist teilt allen aktiven Peers mit, das das Wort A und B nicht mehr zur URL X gehört. Alle deswegen weil die Seite ja durchaus auf jeden Peer vorhanden sein kann (proxy). Das dürfte kein großer Traffic sein, hilft aber die Suchergebnisse und vielleicht auch die Geschwindigkeit zu verbessern.
Der Peer der diese Information bekommt kann ja dann noch selbst entscheiden ob er dann diese Daten löscht oder nicht.

Dieses "shot! and forget" finde ich eigentlich ganz gut (bis auf den Namen). Im Prinzip handelt es sich hierbei um einen Broadcast. Als Technik für Broadcasts hatte ich ja die News vorgesehen, und ich denke das funktioniert auch ganz gut und für diesen Zweck nicht zu langsam, denn Geschwindigkeit ist hier nicht so wichtig. Ein größeres Problem bei dieser Idee sehe ich darin, dass man Lösch-Broadcasts faken kann und daher jeder Peer die zur Löschung deklarierten Links erst neu laden müssten. Wenn das dann jeder Peer auch macht wäre der Algorithmus im Effekt ein DDoS-Tool, was auch nicht sein darf. Hier könnte man das bei den News mögliche Voting machen, so daß bestimmte Peers die Überprüfung durchführen, und bei einer gewissen Anzahl von Bestätigungen dann alle anderen Peers mitziehen ohne den Link weiter zu überprüfen. Hier stellt sich wiederum die Frage wie man die ersten Peers, die ein Voting durchführen sollen bestimmt: ein Such-Client, der bei einer remote Suche einen entsprechenden Link geliefert hat sollte dabei sein.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Do Aug 14, 2008 5:24 pm

Orbiter hat geschrieben:
thq hat geschrieben:Hatte ja schon mal die Newsverteilung vorgeschlagen was aber viel zu langsam ist. Von daher würde ich vorschlagen wir machen etwas nach "shot! and forget", heißt der Peer der feststellt das ein Wort nicht mehr aktuell ist teilt allen aktiven Peers mit, das das Wort A und B nicht mehr zur URL X gehört. Alle deswegen weil die Seite ja durchaus auf jeden Peer vorhanden sein kann (proxy). Das dürfte kein großer Traffic sein, hilft aber die Suchergebnisse und vielleicht auch die Geschwindigkeit zu verbessern.
Der Peer der diese Information bekommt kann ja dann noch selbst entscheiden ob er dann diese Daten löscht oder nicht.

Dieses "shot! and forget" finde ich eigentlich ganz gut (bis auf den Namen). Im Prinzip handelt es sich hierbei um einen Broadcast. Als Technik für Broadcasts hatte ich ja die News vorgesehen, und ich denke das funktioniert auch ganz gut und für diesen Zweck nicht zu langsam, denn Geschwindigkeit ist hier nicht so wichtig. Ein größeres Problem bei dieser Idee sehe ich darin, dass man Lösch-Broadcasts faken kann und daher jeder Peer die zur Löschung deklarierten Links erst neu laden müssten. Wenn das dann jeder Peer auch macht wäre der Algorithmus im Effekt ein DDoS-Tool, was auch nicht sein darf. Hier könnte man das bei den News mögliche Voting machen, so daß bestimmte Peers die Überprüfung durchführen, und bei einer gewissen Anzahl von Bestätigungen dann alle anderen Peers mitziehen ohne den Link weiter zu überprüfen. Hier stellt sich wiederum die Frage wie man die ersten Peers, die ein Voting durchführen sollen bestimmt: ein Such-Client, der bei einer remote Suche einen entsprechenden Link geliefert hat sollte dabei sein.
Wegen dem faken, deswegen hatte ich geschrieben das jeder Peer selbst entscheiden soll ob er was macht. Man könnte auch einfach nur eine Liste für Trusted-Peers benutzen die jeder selbst über die "YaCy Network" Seite verwalten könnte. Eine Trusted-Peers-Liste könnte man auch wie die Seed-Liste für deine Variante benutzen.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon rzkh » Fr Aug 15, 2008 12:18 am

Low012 hat geschrieben:Bei Newstickern kann sich der Inhalt einer Seite ja ziemlich schnell ändern, deshalb wäre ich für eine Gültigkeitsdauer im einstelligen Stundenbereich.


Das könnte bei einigen Sites ja zu grenzwertig hohem Traffic führen? Bin jetzt nicht der Experte, aber müsste der Admin einers Newstickers nicht schon im <HEAD> eine brauchbare Recrawl-Zeit angeben können? Ansonsten recrawle ich verdächtige Sites wie SPON im Viertelstundentakt, die schieben manch interessante Meldung ziemlich flott irgendwo in die Ecke ;-)

-h
rzkh
 
Beiträge: 127
Registriert: Do Aug 16, 2007 10:25 pm

Re: Aktualität der Suchergebnisse?

Beitragvon Orbiter » Fr Aug 15, 2008 5:17 pm

mit welcher Frequenz fragen eigentlich RSS-Reader ihre feeds ab? Im Bezug zum recrawl von Newsseiten ist das ja das gleiche in grün.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Aktualität der Suchergebnisse?

Beitragvon MikeS » Fr Aug 15, 2008 5:44 pm

Kann stark unterschiedlich sein. Ich habe im RSS-Reader 5 Minuten eingestellt, aber ich bin auch ein News-Junkie :D

"Normal" dürften so 15-30 Minuten sein.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm

Re: Aktualität der Suchergebnisse?

Beitragvon Orbiter » Sa Aug 16, 2008 10:53 am

Wenn rss-reader so oft nachgucken müssen wir uns dann ja wohl keine Sorgen machen zu oft eine URL zu testen, oder?

thq hat geschrieben:Wegen dem faken, deswegen hatte ich geschrieben das jeder Peer selbst entscheiden soll ob er was macht.

naja, aber welche Kriterien werden ausgewertet um das entscheiden zu können? Eine Entscheidung basiert ja auf irgendeinem Input. Voting wäre eine Lösung dafür, aber wie entscheiden die 'ersten' Peers ob sie Webseiten antesten, wenn noch niemand anderes ein Vote abgegeben hat? Dazu fällt mir noch folgendes ein:
- Das ganze kann nur für solche Peers relevant sein, die die zu testende URL schon in ihrer DB hat. Wenn das so ist muss man die URL erst gar nicht versenden sondern es reicht den Hash der URL zu versenden. Dadurch vermeidet man, dass Peers die ganz unbeteiligt sind die URL bekommen und somit sich zum testen genötigt 'fühlen' können. Im worst case kennen aber alle Peers den URL-Hash
- Die ersten Tester müssen sich 'berufen' fühlen. Dazu gibt es einen Algorithmus, der auf Wahrscheinlichkeitsrechnung und Zufallsexperimenten beruht. Hat man beispielsweise X peers, und 5 sollen nur testen, dann berechnet jeder Peer eine Zufallszahl, die mit 5:x Wahrscheinlichkeit für ihn ein 'ja' ergibt. Als Ergebnis sollten also unter den X Peers 5 dabei sein, bei denen dieses Zufallsexperiment funktioniert. Diese sind dann die 'Berufenen'. Hört sich frickelig an, ist aber eine Standard-Lösung für ein Teilproblem des Gefangenendilemmas, diese Vorgehensweise habe ich aus dem für Informatiker obligatorische Buch Metamagicum von Hofstadter

thq hat geschrieben:Man könnte auch einfach nur eine Liste für Trusted-Peers benutzen die jeder selbst über die "YaCy Network" Seite verwalten könnte. Eine Trusted-Peers-Liste könnte man auch wie die Seed-Liste für deine Variante benutzen.

Das geht ein wenig zu sehr in Richtung Zentralisierung nach meinem Geschmack. Hier gibt es aber ein Berührungspunkt zu einem Wunsch von Urban, er möchte nun doch unbedingt ein URL-DHT haben, um einen globalen Double-Check zu ermöglichen. Eine solche URL-DHT könnte auch Update-Zyklen von URLs verwalten, und dann auch organisieren, wer in der Menge der Peers für das Update einer einzelnen URL zuständig ist. Ich plane damit seit ein paar Wochen herum und nehme diese Sache hier mit in die Planung hinein.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Aktualität der Suchergebnisse?

Beitragvon thq » Sa Aug 16, 2008 11:11 am

Also ein URL-DHT möchte ich auch haben. Probleme könnte die Blacklist machen, die dürfte dann ja eigentlich nur noch bei der Suche aktiv sein. Bin zur Zeit der Meinung das wir das so machen sollten wie Freenet (mehr oder weniger), wo keiner weiß welche Daten in der DB sind.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: Aktualität der Suchergebnisse?

Beitragvon MikeS » Sa Aug 16, 2008 11:51 am

Wenn rss-reader so oft nachgucken müssen wir uns dann ja wohl keine Sorgen machen zu oft eine URL zu testen, oder?


Ja und nein. Ein RSS-Reader fragt immer nur EINE Seite ab. Eine Suchmaschine macht das durchaus mit ein paar hundert pro Domain.

Solange nur wenige Seiten einer Domain häufig abgefragt werden ist das kein Problem. Wenn aber alle Seiten so häufig gecrawlt werden...

Der Idealfall ist, dass eine Seite genau so häufig abgefragt wird, wie sie sich ändert. Ich habe mal irgendwo gelesen/gehört wie man da sehr nah dran kommen kann. Ich weiß nicht mehr ob Google das so macht, oder ob das eine andere Suchmaschine war...:

1) Jede Seite beginnt mit einem Default-Wert für die Aktualisierungshäufigkeit. Sagen wir mal 30 Tage.
2) Wenn eine Seite erneut geholt wird, wird überprüft, ob sich der Inhalt signifikant geändert hat. Also nicht nur ein Datums-/Zeitstempel oder eingebundene Werbung. Wenn sich eine Seite zu mehr als 2% ändert, kann man das in der Regel als signifikant betrachten.
3) Hat sich eine Seite geändert, wird der Aktualisierungszeitraum für diese URL halbiert. Natürlich nie unter ein festgelegtes Minimum. Z.B. nie unter 10 Minuten. Hat sich die Seite nicht geändert wird der Aktualisierungszeitraum verdoppelt, aber nie über ein Maximum wie z.B. 90 Tage.

Mit der Zeit pendelt sich der Aktualisierungszeitraum auf einen fast optimalen Wert ein.

Ist allerdings zugegebenermaßen recht umfangreich das umzusetzen. Man muss den Aktualisierungszeitraum speichern und Angaben über die Seite, damit man den neuen Crawl mit dem vorherigen vergleichen kann.
MikeS
 
Beiträge: 88
Registriert: Mo Feb 25, 2008 6:30 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron