Google schaltet neuen Suchindex frei...

Allgemeines und Nachrichten zu Suchmaschinen-Themen

Google schaltet neuen Suchindex frei...

Beitragvon Vega » Mi Jun 09, 2010 8:53 pm

siehe: http://www.heise.de/newsticker/meldung/Google-schaltet-neuen-Suchindex-live-1018120.html
Ich finde das ganze deshalb Interessant weil hier mal erwähnt wird wieviel Speicherplatz dieser belegt - 100 Millionen Gigabyte - da müssen wir uns
noch ein wenig Strecken...


Gruß,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Google schaltet neuen Suchindex frei...

Beitragvon Lotus » Do Jun 10, 2010 12:51 pm

Dann kann man das bei 320 GB / PC auf ca. 300.000 Rechner schätzen. Bei Redundanz 3 ca. 1 Mio. Ich halte das für relativ ralistisch.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Google schaltet neuen Suchindex frei...

Beitragvon Vega » Fr Jun 18, 2010 10:34 pm

1 Million stimmt...siehe http://www.intac.net/a-comparison-of-dedicated-servers-by-company_2010-04-13/ - hm, da werden wir wohl noch ein paar Peers aktivieren müssen....

Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Google schaltet neuen Suchindex frei...

Beitragvon disi » Fr Jun 18, 2010 10:58 pm

Im Moment sind es so ~250, richtig? :D

//edit: ausserdem will ich nicht jeden Muell. Wie filtert man eigentlich so Seiten die gerade aktuell gesuchten Inhalt generieren? So praktisch Fake Seiten?
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon sdefefrg » Di Jun 22, 2010 9:27 pm

würde mich auch mal interssieren. OK aber das sind schon echt krasse Zahlen. Google ist absolut die nr 1. Und da wird sich erstmal auch nichts mehr dran ändern.
sdefefrg
 
Beiträge: 3
Registriert: Di Jun 22, 2010 9:16 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon bbtuxi » So Jun 27, 2010 7:11 pm

Aber die größe ist ja nicht alles, das Ranking ist das wichtigste..... Wie sieht das mittlerweile bei Yacy aus? gibts da ein vergleichbares Ranking wie bei Google?
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon Lotus » Mo Jun 28, 2010 8:04 am

bbtuxi hat geschrieben:gibts da ein vergleichbares Ranking wie bei Google?

Nein, das kannst du dir selbst einstellen.
Siehe links im Admin-Bereich die erste geschützte Seite.
Da kann jeder SEO betreiben wie es ihm gefällt. :)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Google schaltet neuen Suchindex frei...

Beitragvon disi » Mo Jun 28, 2010 9:33 am

Lotus hat geschrieben:
bbtuxi hat geschrieben:gibts da ein vergleichbares Ranking wie bei Google?

Nein, das kannst du dir selbst einstellen.
Siehe links im Admin-Bereich die erste geschützte Seite.
Da kann jeder SEO betreiben wie es ihm gefällt. :)


Aber Sortierung nach Sprache waere schon nett. Ich habe oft Chinesisch oder Japanisch in den Suchergebnissen :/
disi
 
Beiträge: 34
Registriert: Mi Jun 16, 2010 1:00 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon Orbiter » Mo Jun 28, 2010 9:44 am

dafür gibts den "Preferred Language" Einsteller. Die preferred language ergibt sich übrigens automatisch über die Sprache des Browsers, die schickt der nämlich bei einem http request an YaCy mit.
Allerdings ist die Spracherkennung in YaCy für Dokumenteninhalte nicht gerade perfekt.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Google schaltet neuen Suchindex frei...

Beitragvon Low012 » Mo Jun 28, 2010 9:53 am

Ups, jetzt hat Orbiter schon geantwortet, aber weil meine Antwort auch schon fertig geschrieben ist, poste ich sie einfach mal unverändert.

Es ist möglich, die gewünschte Sprache anzugeben, indem du den Suchbegriff um das Schlüsselwort "LANGUAGE" erweiterst.

Eine Suche nach android LANGUAGE:de spuckt bei mir deutlich andere Ergebnisse aus als android LANGUAGE:en. Leider ist die Erkennung verschiedener Sprachen noch nicht so zuverlässig, wie ich mir das wünschen würde. Dafür gibt es mehrere Gründe:
  • Die Erkennung von Sprachen wird zur Zeit anhand von Statistiken über die Verteilung einzelner Buchstaben in einem Text gemacht. Ich würde das gerne ändern und Bi-Gramme benutzen. Die Änderungen im Code dafür würden sich im Rahmen halten und ich müsste zusätzlich neue Statistiken erzeugen.
  • Die Statistiken habe ich aus zufällig ausgewählten Texten aus der Wikipedia erstellt. Leider gibt es einige Sprachen, in denen bisher nur sehr wenige Artikel geschrieben wurden, weshalb bei den zufällig ausgewählten Texten öfter mal die gleichen doppelt benutzt wurden. Ich habe Sprachen mit sehr wenigen Wikipedia-Artikeln daher bei den Statistiken erstmal ignoriert.
  • Ich weiß nicht, ob sich das geändert hat, aber zumindest früher wurden Dokumente in YaCy erst normalisiert und dann durch die Spracherklennung geschickt, was natürlich zu schlechteren Ergebnissen geführt hat. Entweder müsste ich bei der Erstellung der Statistiken die dazu benutzten Texte auch erst normalisieren oder in YaCy dürften die Texte erst nach der Spracherkennung normalisiert werden. Die erste Möglichkeit wäre wahrscheinlich weniger aufwendig.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon bbtuxi » Mo Jun 28, 2010 11:51 am

Weil ich finde solche Grundlegenden Sachen müssen einfach zuverlässig funktionieren. Habe gerade eben eine Suche gestartet :
android LANGUAGE:de

Bei den ersten 10 Ergebnissen war nicht eine Seite auf Deutsch dabei! Hier muss auf jeden Fall stark nachgebessert werden.

Ich hätte ja eine Idee, Menschen erkennen ihre eigene Sprache ja mit Sicherheit am besten. Man könnte bei Yacy einen Bereich einbauen der verschiedene Suchergebnisse/Webseiten anzeigt und man angeben muss ist die Seite in meiner Sprache oder nicht. Die ganzen Ergebnisse werden dann ähnlich wie beim Ranking an einen zentralen Server gesendet. Nach einigen Wochen dürfte man wohl genug Daten haben um sehr genaue Statistiken zum Erkennen der Sprache zu erstellen.
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon Phiber » Mi Jun 30, 2010 3:09 pm

bbtuxi hat geschrieben: Wie sieht das mittlerweile bei Yacy aus? gibts da ein vergleichbares Ranking wie bei Google?


Google wurde ja berühmt durch ihr Ranking anhand der Eigenwerte der Verlinkungsmatrix vom Index.

Sowas ähnliches gibt es aber bei YACY nicht, oder? Und wäre sowas überhaupt jemals mathematisch möglich, in einer p2p Suchmaschine einen solchen zu realisieren? (Abgesehen von den technischen Vorraussetzungen, sowie der Rechenleistung, usw.).
Klar Clientbezogen ist das sicher kein Problem, aber eben auf das ganze Suchnetzwerk bezogen.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon bbtuxi » Mi Jun 30, 2010 3:40 pm

Na klar ist das möglich, jeder Client errechnet sich ein eigenes Ranking... wenn er die Suchergebnisse ausliefert wird dieses einfach mitgesendet. Am Ende werden einfach alle Rankings zusammen gezählt....

grüße
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon Phiber » So Jul 04, 2010 6:08 pm

bbtuxi hat geschrieben:Na klar ist das möglich, jeder Client errechnet sich ein eigenes Ranking... wenn er die Suchergebnisse ausliefert wird dieses einfach mitgesendet. Am Ende werden einfach alle Rankings zusammen gezählt....

grüße


Toll ich will auch mal so Mathe machen, "einfach alles zusammenzählen" (und dann wird das schon richtig sein).

http://de.wikipedia.org/wiki/PageRank
Meine Frage war ja, dass wenn jeder Peer eine Verlinungsstruktur-Matrix Mpeer hat (das ja np), woraus man auch den Eigenvektor vpeer von Mpeer berechnen könnte, könnte man dann mathematisch auch einen globalen Eigenvektor (welcher dann sozusagen Freeworld Page Ranking wäre) errechnen, oder ist das von vornerein ein Ding der Unmöglichkeit?
Also der Schritt von Mpeer + vpeer ---> v, ohne zentral M berechnen zu müssen, und ohne dass jeder einzelne Peers dies voll berechnen muss.

Aber das klingt nach hoher Mathematik, und ich habe keine Ahnung. Vielleicht gehts eben nicht, oder vielleicht wäre es etwas wo einem Google sogar ziemlich viel Geld gibt wenn man ein effizientes Verfahren zur dezentralisierten P2P Page Ranking Berechnung erfindet ;)

Technische Realisierbarkeit ist natürlich ein andere Thema.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon Vega » So Jul 04, 2010 6:26 pm

Es gibt eine Art Ranking - siehe http://localhost:8080/Ranking_p.html aber wie das genau funktioniert müsste Michael mal erklären...
Was richtig ist, hier hat YACY noch erhebliches Potential, also wenn sich jemand da austoben möchte ....gern.

Gruss,
Thomas
Vega
 
Beiträge: 824
Registriert: Mi Jun 27, 2007 3:34 pm
Wohnort: Dresden

Re: Google schaltet neuen Suchindex frei...

Beitragvon Orbiter » Mi Jul 21, 2010 10:34 am

das aktuelle default-Ranking betont eine Sortierung nach Termfrequenz (wie bei lucene) aber mischt diese mit anderen Heuristiken, wie 'Treffer in URL', 'Treffer in Headline', Position des Treffers im Text (weiter oben ist besser) u.s.w.

Damit behaupte ich mal sind wir besser als lucene weil die nur Termfrequenz machen und können. Dieses Kriterium ist übrigens der 'Klassiker', so hat man das in vor-Google Zeiten gemacht. Webseiten waren darauf 'optimiert' dieses Ranking zu beeinflussen (man musste ein Suchwort einfach sehr oft auf der Seite vorkommen lassen, ggf. in schwarzer Schrift auf schwarzem Hintergrund).

Nachdem Google nun einen anderen Maßstab gesetzt hat (und die alten SEO-Tricks zu Termfrequenz weg sind) behaupte ich mal dass das alte Termfrequenz-Ranking auch wieder Sinn macht, wenn auch Page Rank schon recht gut ist.

Es gibt Experimente in YaCy die eine 'minimal-Version' von page rank umsetzt, das 'Block Rank'.

Ansonsten würde ich dazu anregen wollen die von Vega genatte Konfigurationsseite zum Experimentieren zu nutzen. Wir machen ja hier Suchmaschinenforschung, da muss man experimentieren können und diese Konfig Seite ist einfach ein Experiment-Schaltbrett.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Google schaltet neuen Suchindex frei...

Beitragvon Low012 » Sa Jul 24, 2010 4:53 pm

Weil auch grad einen Anfrage im englischen Forum kam (http://www.yacy-forum.org/viewtopic.php?f=2&t=328):

Ich glaube, dass es gut wäre, wenn jeder Rankingparameter im auf http://localhost:8080/Ranking_p.html kurz erklärt würde und auch gesagt würde, in welche Richtung (mehr oder weniger "Punkte") man die Bewertung ändern muss, damit es sich wie gewollt auswirkt (mehr oder weniger "Impact"). Ansonsten probiert man etwas planlos rum, wenn man nicht genau weiß, welcher Parameter wofür da ist. Wenn man schon lange dabei ist, kann man sich wahrscheinlich viel bis alles selbst anhand der Namen erklären, aber ansonsten kann ich mir vorstellen, dass man vielleicht etwas ratlos vor den ganzen Parametern steht.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Google schaltet neuen Suchindex frei...

Beitragvon Orbiter » Mo Jul 26, 2010 11:11 am

hab das nun in SVN 6997 drin. Ist aber leider nicht lokalisierbar. So wie die Seite aufgebaut war liess sich das ohne große Änderung nicht anders machen. Besser als nichts.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Suchmaschinen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste