URL indexierung

Ideen und Vorschläge sind willkommen.

URL indexierung

Beitragvon thq » Do Jan 08, 2009 4:50 pm

Ich bin mir nicht sicher wie eine URL indexiert wird, aber wenn z.B. von der URL

http://www.heise.de/newsticker/meldung/print/121369

http www heise de newsticker meldung print 121369 gespeichert wird würde ich vorschlagen für URLs eigene Regeln zu erstellen. Es macht bei einer URL ja keinen Sinn http oder www zu indexieren, ich würde auch immer das Ende der Domäne abschneiden, hier also .de.

Bei dieser URL würde ich nur heise indexieren, man sucht ja normalerweise nicht nach newsticker oder meldung sondern nach dem Inhalt davon.

Wie seht ihr das ?
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: URL indexierung

Beitragvon Orbiter » Do Jan 08, 2009 5:02 pm

Orbiter
 
Beiträge: 5799
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: URL indexierung

Beitragvon thq » Do Jan 08, 2009 5:07 pm

Und weil google das findet ist es gut ?

Ich glaube auch nicht das google Probleme wegen der Indexgröße bekommt, YaCy sollte da schon schlauer sein bei dem was gespeichert wird.
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm

Re: URL indexierung

Beitragvon Low012 » Do Jan 08, 2009 7:41 pm

Nach www zu suchen, ist wahrscheinlich nicht besonders nützlich, aber ich habe z.B. die Domain http://nause.audioattack.de/ eingerichtet. Das ist zur Zeit nur eine Umleitung, die auf eine Seite verweist, wo mein kompletter Name sowieso zu sehen ist, aber das muss ja nicht so sein. Die Bestandteile des Pfades können auch sehr nützlich sein, wenn es z.B. darum geht, Software zu finden, die z.B. unter http://www.example.org/funkydevice/drivers/win98/DX654.zip abgelegt ist.

Aber vielleicht wäre es nicht ganz doof, für URLs eine Liste mit Stopwords definieren zu können, um wirklich www, www2 und ähnlichen Kram filtern zu können, der nur in den seltensten Fällen sinnvoll scheint.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: URL indexierung

Beitragvon thq » Do Jan 08, 2009 11:02 pm

Low012 hat geschrieben:Aber vielleicht wäre es nicht ganz doof, für URLs eine Liste mit Stopwords definieren zu können, um wirklich www, www2 und ähnlichen Kram filtern zu können, der nur in den seltensten Fällen sinnvoll scheint.
So war das auch gedacht, von deinen 2 URLs würde ich das indexieren. Das DX654.zip ein ein Archiv ist wird ja sowieso gespeichert, ich gehe zumindest davon aus.

http://www.example.org/funkydevice/drivers/win98/DX654.zip
http://nause.audioattack.de/
thq
 
Beiträge: 651
Registriert: So Jul 08, 2007 12:23 pm


Zurück zu Wunschliste

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron