Social Media Ranking

Forum for developers

Social Media Ranking

Beitragvon Orbiter » Di Jun 07, 2016 5:02 pm

nach über einem Jahr wo ich mich mit loklak.org beschäftigt habe fällt mir nun auf dass die in tweets eingebetteten Links eine hervorragende Quelle für Ranking-Koeffizienten sein könnten. Ich habe hier nun 1.3 milliarden Tweets und alle Links wurden de-shortened und die Domäne der eingebetten Links in ein eigenes Feld geschrieben. Es wäre also einfach da Statistiken zu machen.

Ich stelle mir das so vor: pro Monat eine Aufstellung der Domänen mit prozentualem Anteil aller Links. Das sollten Werte von weit unter 1 ergeben, diese könnte man dann mit einer Konstante multiplizieren (z.B. 256) und somit ein Ranking-Attribut bekommen, was man dem Release beilegt. So wie eine moderierte Liste, nur eben dass sie aus Twitter errechnet wurde. Man bräuchte im YaCy Index ein numerisches Feld, wo die entsprechende Zahl aus dem Prozentwert * 256 eingetragen wird. Und dann danach sortieren.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Social Media Ranking

Beitragvon luc » Mi Jun 08, 2016 6:56 am

Hi Orbiter, I think it would be great to help YaCy with all these data gathered by loklak. But I wonder if the new field added to YaCy index should not rather be a raw value such as the links number from social medias, rather than an already processed ranking value. Wouldn't it be more clear for users and also allow finer tuning and customization of ranking on this new field?
luc
 
Beiträge: 305
Registriert: Mi Aug 26, 2015 1:04 am

Re: Social Media Ranking

Beitragvon Orbiter » Mi Jun 08, 2016 1:59 pm

absolute numbers are misleading becuase the absolute number of harvested messages is very different over time. I. e. there may be 200 million messages on total for one month, and then 100 million another month. To normalize this, the best approach is to compute a likelihood to click on a specific domain if all the links are available for a random click in a specific time windows. Then different time frames can be compared.
Thats the same approach google does if they compute the page rank: not the absolute number of referrences but the likelihood to reach a specific page if a user clicks randomly.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Social Media Ranking

Beitragvon luc » Do Jun 09, 2016 1:08 pm

Thank you for the explanation. You are right, storing a number of links only make sense regarding to the absolute total number, which evolves each time a document is indexed. So it is more practical to store the ratio.
By the way, it will surely help users to clearly document the formula used to feed this new field.
luc
 
Beiträge: 305
Registriert: Mi Aug 26, 2015 1:04 am

Re: Social Media Ranking

Beitragvon biolizard89 » Mi Sep 14, 2016 11:09 am

It occurs to me that there may be some benefit to considering how many followers a Twitter user has who tweets a link. It's not immediately obvious to me what the algorithm should be. The naive algorithm would be to linearly weight the Twitter links by the number of followers the poster has, but I have no reason to believe that this would actually provide optimal results.
biolizard89
 
Beiträge: 61
Registriert: Do Jan 03, 2013 12:42 am


Zurück zu YaCy Coding & Architecture

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste