nofollow und kapuute links

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

nofollow und kapuute links

Beitragvon steini » Di Feb 24, 2009 11:47 am

Hallo,

vielleicht kann mir ja einer folgende Fragen beantworten:

1.) Warum ignoriert der yacy Crawler das rel Attribut in Links? Dadurch lässt sich nicht steuern welche Links indexiert werden sollen und welche nicht.

2.) Warum folgt der Crawler den Links nicht wie diese im Quelltext stehen? Aus dem Link http://test.de/a/1/b/2 wird dann Inhalt von http://test.de/a/1/b/ indexiert, der letzte Wert wird also abgeschnitten. Dies generiert Fehler.

Vielen Dank
steini
 
Beiträge: 1
Registriert: Di Feb 24, 2009 11:41 am

Re: nofollow und kapuute links

Beitragvon Orbiter » Di Feb 24, 2009 11:57 am

zu 1) wie meinst du das mit 'ignorieren' des rel links? Der hat aus meiner Sicht keine Relevanz. Wie würdest du steuern wollen? Würdest du sagen wollen, nur Links mit einem bestimmten 'rel' tag?

zu 2) aus einem Link wie http://test.de/a/1/b/2 macht der Crawler dann weitere Links
http://test.de/a/1/b/
http://test.de/a/1/
http://test.de/a/
http://test.de/
die alle in die Crawl-Queues geschrieben werden, wenn robots.txt das erlaubt, auch wenn kein Tag in http://test.de/a/1/b/2 dorthin verweist. Daher ist es klar das die URL die du nennst auch erfasst wird. Dass die URL http://test.de/a/1/b/2 aber selber nicht erfasst wird, musst du im Detail sehen. Dazu schaust du im Log was da steht warum die nicht gecrawlt wurde, dazu kann es viele Gründe geben. Oder die URL ist doch indexiert worden, und dich hat nur verwirrt das die anderen auch im Crawler gelandet sind.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: nofollow und kapuute links

Beitragvon miko » Di Mär 03, 2009 10:27 pm

Es gibt glaube ich sowas wie rel="nofollow".

Interessantes Projekt!
miko
 

Re: nofollow und kapuute links

Beitragvon daburna » Mi Mär 04, 2009 11:35 am

Ich glaub zu nofollow hatten wir vor eltlicher Zeit mal eine Diskussion mit Allo. Damals gab es viele Argumente nofollow nicht zu beachten, da es nur ein quasi Standard von google war. Genau kann ich das jetzt aber auch nicht mehr nachvollziehen.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: nofollow und kapuute links

Beitragvon Lotus » Mi Mär 04, 2009 2:49 pm

Das bezieht sich meines Wissens auf den Google-Pagerank, der dann nicht vererbt wird. Da wir mit Google und Pagerank nichts am Hut haben braucht und dieses nofollow eigentlich auch nicht zu stören.
Wenn das nofollow-Ziel das Indexieren in der robots.txt nicht verbietet dürfen wir indexieren. nofollow wörtlich genommen greift quasi in die Souverinität des Ziels ein.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: nofollow und kapuute links

Beitragvon daburna » Mi Mär 04, 2009 3:01 pm

Jip, Lotus hat recht! Deswegen beachtet YaCy nofollow nicht. Und das ist auch gut so.
daburna
 
Beiträge: 316
Registriert: Mi Jun 27, 2007 12:05 pm
Wohnort: Greifswald

Re: nofollow und kapuute links

Beitragvon Orbiter » Mi Mär 04, 2009 3:03 pm

..weil nur die Zieldomäne mir verbieten darf, sie zu indexieren. Ja.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: nofollow und kapuute links

Beitragvon RocketTurtle » Do Mär 26, 2009 10:52 pm

Nur mal um es hier mit einzuwerfen, nofollow wird durchaus auch intern verwendet. Beispiel von YiGG.de:

http://www.yigg.de/digital/abo-accounts ... -kassieren verlinkt auf http://www.yigg.de/digital/abo-accounts ... addtogroup - der Benutzer kriegt etwas per JavaScript zu sehen, aber ich will auch immer ein Fallback für Personen mit Behinderungen haben. Es kommt auf der Seite nur ein Formular hinzu, ansonsten ist der Inhalt identisch.

Damit Google das nicht crawlt benutzen wir also rel="nofollow": Was doch auch Sinn macht - mit robots.txt lässt sich so etwas nicht abbilden. Wenn YaCy erst den Meta-Tag auswerten muss (falls es das tut) ist es schon zu spät, sowohl YaCy als auch der Webserver haben unnötige Arbeit geleistet.

Das es sich um keinen Standard handelt, sollte kein Hinderniss sein es in diesem Fall einzusetzen. Es geht hierbei eben in vielen Fällen auch darum den Wunsch des Seitenbetreibers auf seiner Seite nicht zu crawlen zu respektieren und nicht um Fremdseiten..
RocketTurtle
 
Beiträge: 16
Registriert: Do Mär 26, 2009 10:26 pm
Wohnort: München

Re: nofollow und kapuute links

Beitragvon Quix0r » Mi Apr 08, 2009 7:27 pm

rel=nollow ist von Google "erfunden" worden, um es als "die ultimative anti-spam-loesung fuer Blogger" auszugeben. In Wirklichkeit killt es die "Interconnektivitaet" von Webseiten. Mit rel=nofollow schadet man sogar sich selbst. Wenn ihr (@RocketTurtel) das nicht wollt, das bestimmte Links indiziert werden, dann nehmt sie halt raus. :) Und wenn das nicht geht, dann macht so etwas: href="#" onclick="return gotoUrl('some_internal_url');" oder so ;)

Ist aber meinesachtens total der Muell, denn wieso sollen "Unterseiten" nicht indexiert werden? Die bringen doch gerade den Content in die Suchmaschinen rein.

Gut, dass YaCy diesen Google-nofollow-Kram ignoriert. Stimmt mich jedenfalls positiv. Ich selber nutze eher andere: http://gmpg.org/xfn/

Und diese sind deutlich besser, als nofollow. Fuer externe, unbekannte Links also eher rel="external" nehmen usw.

VG,
Roland
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: nofollow und kapuute links

Beitragvon dulcedo » Mo Jul 20, 2009 11:09 pm

Quix0r hat geschrieben:Ist aber meinesachtens total der Muell, denn wieso sollen "Unterseiten" nicht indexiert werden? Die bringen doch gerade den Content in die Suchmaschinen rein.


Da hast du völlig recht ein Blog kann man nicht 'lesen' die Inhalte musss man bei Bedarf finden. Dass dies über Inhaltsverzeichnisse mühsam ist hat die Zeit seit es Bücher gibt bewiesen und je dicker die Bücher umso mühsamer. Also muss die Suche Teil des Buchs werden und das ist im Blog eigentlich so umgesetzt. Das chronologische ist nur die Art die Inhalte zu erfassen.
Das Finden und zugreifen ist dann über externe Suchen oder natürlich ein Inhaltsverzeichnis im Blog selbst realisiert. Aber für zweiteres muss man das Inhaltsverzeichnis ja auch erst einmal finden oder kennen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Yahoo [Bot] und 2 Gäste

cron