Google - Deep crawl

Themen aus Kultur und Politik zur Informationsfreiheit

Google - Deep crawl

Beitragvon liebel-lab » Do Mär 19, 2009 8:43 am

Wir beobachten seit einigen monaten, dass von google-IPs gezielte suchanfragen an den "bioinformatic harvester" gestellt werden (http://harvester.fzk.de).
Alles altbekannt..langsame anfragen...warten..neuen anfragen..bis nach und nach alle seiten erfasst sind (das ganze über wochen).
Was mir bisher nie wirklich aufgefallen ist...(weil ich keine zeit habe /und kein interessse mir logfiles anzusehen)...das Vokabular, welches google wählt...
Es sind NUR hochspezifische wörter aus der genomic und der bioinformatic...also habe ich mal genauer hingesehen ... "gegogogelt" sozusagen.

Zu info: der Bioinformatic harvester enthält ca 350.000 Seiten. Jede beschreibt ein protein oder gen von verschiedene organismen .
Die Suchwörter des google-bot (er nennt sich "crawlgoogle" ) waren am anfang...(vor ca 10 monaten noch recht unspezifisch...aber bereits im wissenschaftlich/biologischen zu finden...)
Seit ca 5 monaten immer spezifischere anfragen (z.Bsp (" catalytic subunit 5"...
wenn ich mir die wörter nach und nach ansehen könnte man meinen google erstellt ein gezieltes "site/topic/spezifisches" vokabular ....
da die anfragen oft sehr weit auseinanderliegen (10mins) ..vermute ich dass es nicht einfach eine "user googelt gen, dann schickt ich doch mal eine anfrage ins deep web"..methode ist...
obwohl..

(witzig: doppeldeutige wörter waren niemals dabei: z.bsp gibt es gene welche "cat", "steif", "masterC" "kif" usw heissen ...solche wörter sorgen für viel verwirrung ...wurden aber niemals gesucht :-)

soweit die kleine beobachtung hier...

cheers

U.
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Google - Deep crawl

Beitragvon hendi » Mo Mär 23, 2009 10:26 am

Ja, das stand vor einiger Zeit bei Heise, dass Google nun auch Formulare crawlt, um das hidden web zu erschließen. Los geht es, wenn ich den Artikel richtig erinnere, mit "einfachen" Wörtern, später werden die Wörter dann aus den gefundenen Seiten ausgewählt, was langfristig zu einer Spezialisierung auf die einzeln Seite führt.

Kann das auch hier so sein? Sprich: erwähnen die einzelnen Seiten auch andere Seiten, bzw. steht auf der Seite für ein Protein etwas über ein andres?
hendi
 
Beiträge: 35
Registriert: Mi Jun 27, 2007 11:50 am


Zurück zu Panorama

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast