"Schönheitsideale" für Webseiten anhand Statistiken

Ereignisse, Vorschläge und Aktionen

"Schönheitsideale" für Webseiten anhand Statistiken

Beitragvon Orbiter » Fr Nov 16, 2007 4:18 pm

In SVN 4220 habe ich nun eine detailierte Ausgabe der Rankingparameter in http://localhost:8080/IndexControlRWIs_p.html eingebaut. Hier kann man die 'positiven Attribute':

- words in title (Anzahl der Wörter in der Titelzeile der Webseite)
- words in text (sichtbare unterschiedliche Wörter auf der Webseite)
- local links (Anzahl der hrefs die zur gleichen Domain gehen)
- remote links (Anzahl der hrefs die zu einer Domain ausserhalb der eigenen Domain gehen)
- hitcount (Anzahl der Treffer / wie oft kommt das gesuchte Wort auf der Webseite vor)

sehen. Sie werden alle so bewertet, dass größere Werte auch besseres Ranking bedeuten. Das ist aber in manchen Situationen nicht unbedingt richtig. Beispielsweise könnte ich mir vorstellen, das eine optimale, gut aufgebaute Webseite nicht zu wenig aber auch nicht zu viele Wörter umfassen sollte. Das gleiche gilt für die Titelzeile und die Anzahl der eingebetteten Links.

Was denkt ihr wie man Ranges für optimale Werte benennen könnte? Beispielsweise würde ich so 9 Wörter für einen Titel als gut ansehen, und mehr oder weniger wird dann wieder schlechter. Für die Webseite 300-400 Wörter? Wieviele Treffer wären gut (zu wenige ist klar schlecht, zu viele könnte Spam sein). Vorschläge, Ideen?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Schönheitsideale" für Webseiten anhand Statistiken

Beitragvon datengrab » Fr Nov 16, 2007 6:05 pm

Anzahl Worte im Titel einer Seite sollte nur nach Überschreitung eines Maximums zur Abwertung führen. wikipedia kommt bei vielen Titeln mit zwei Worten aus (wikipedia - Begriff) und viele Seiten habe nur den Domainnamen als Titel.

Ob man eine Seite mit viel oder wenig Inhalt sucht, denke ich hängt davon ab was man sucht. Wenn man ein Produkt oder ein Projekt sucht sind es meist Seiten mit wenigen Worten, da die Startseiten vieler Produkte und Projekte recht Wortkarg sind. Sucht man hingegen Dokumentation zu etwas, will man häufig größere Textmengen. Da man im ersten Fall meist nur nach dem Namen des Produkts oder Projekts sucht, wird dort der Suchbegriff aus ein, maximal zwei Worten bestehen und die Größe der Seite in den meisten Fällen unter 80-100 Worte bleiben. Alle längere Suchgeriffe deuten auf eine "Inhaltssuche" hin und dort ist viel Text gut.

Für den Inhalt einer Seite sollte man die Gewichtung im Verhältniss zur Anzahl der Worte setzen. Bei kleinen Textmengen (=Startseiten) darf die Anzahl der internen Links groß sein (40-60%), die Anzahl der externen kleiner (6-10%) und das Gesamtlinkverhältniss sehr groß. Mit steigender Textmenge sinkt die Relevanz wenn nicht die Anzahl der Gesamtlinks überproportional sinkt. Damit verhindert man Linkfarmen ein wenig. Das gleiche gilt für den hitcount.

Bei größeren Textmengen sollte es zu Abwertungen führen, wenn die statistische Verteilung von Worten, Interpunkitionszeichen und Groß-/ Kleinschreibung nicht stimmt. Das wertet Seiten ab, die generierten Textmüll presentieren um Inhalt vorzutäuschen um die Relevanz der gesetzten Links zu steigern. Um an solche Daten zu kommen würde ich einen Crawl über Wikipedia laufen lassen. Die Extrahierung der relevanten Textpassagen werden einem leicht gemacht, da sie zwischen
Code: Alles auswählen
<!-- start content -->
und
Code: Alles auswählen
<!-- end content -->
eingefasst sind.
datengrab
 
Beiträge: 366
Registriert: Sa Aug 25, 2007 7:22 pm


Zurück zu Mitmachen

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 1 Gast

cron