rasut4 - Beim Crawlen die SID ignorieren?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon ramfresser » Fr Okt 03, 2014 1:24 pm

Hallo

Gibt es eine Möglichkeit dem Crawlerauftrag, die Option mit auf den Weg zugeben, das er bei gefunden Url´s mit SID (z.B. so eine http://www.krebsforum-fuer-angehoerige.de/forum/index.php?sid=d9fb9e1a0812d89be921cf1fe043b8e8) den Teil mit der SID (?sid=d9fb9e1a0812d89be921cf1fe043b8e8) ignorieren soll?

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon Erik_S » Fr Okt 03, 2014 2:39 pm

Hallo,

ich bilde mir ein schon mal gelesen zu haben das YaCy alle URLs die einen Query-String enthalten vom Indexieren komplett ausgenommen werden. Somit stellt sich mir die Frage wie z.B. Foren, aber auch andere Seiten die per Query-String z.B. einen Artikel selektieren, überhaupt indexiert werden können.

@ramfresser:
Was ist den das konkrete Problem?
Lass den Crawler doch ruhig allen Links so folgen wie ein Browser das auch machen würde, nachteilig wäre dann nur das die Session-ID Bestandteil der Index-Datenbank von YaCy wird aber ich denke um dieses Problem anzugehen sollte YaCy die Query-Strings mit einer passenden Heuristik o.ä. verarbeiten anstatt immer zu ignorieren oder zu verwerfen.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon ramfresser » Fr Okt 03, 2014 3:09 pm

Hallo

Noch mal möchte ich kurz darauf hinweisen, das meine Fragen nicht immer gleich als Problem angesehen werden sollten, denn es sind in 99% aller Fälle einfach nur Fragen zu Funktionen der yacy Software.

In meinen Forum, habe ich zu meinen großen Bedauern feststellen müssen (Dank yacy), das es noch Templates gibt, die mit dem Befehl "sid=" versaut sind. Die Umprogrammierung der Templates ist in Arbeit wird aber noch ein paar Tagen dauern.

Der Crawler hat durch die ständigen neuen SID´s fast 7 Tage lang das Forum von oben bis unten und von rechts nach links auf den Kopf gestellt. Das führte zu einer Datenflut von 32 GB im Diskspeicher der Suchmaschine.

Deswegen meine Frage. Nichts mehr.

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon ramfresser » Sa Okt 04, 2014 8:15 pm

Hallo

Gefunden im Experten Crawler Start, kann man alle Url's mit einem ? auschliessen. Habe gleich mal probiert und es hat geklappt.

Wieder neue und Intressante Sichtweise auf mein Forum dank yacy. :lol:

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon Erik_S » So Okt 05, 2014 9:41 am

Hallo,

ramfresser hat geschrieben:Gefunden im Experten Crawler Start, kann man alle Url's mit einem ? auschliessen.
Aber bedeutet das nicht das gar keine Seite in einem Forum indexiert wird?
Alle Foren-Softwares die ich kenne benutzen einen Query-String in der URL um einen konkreten Beitrag zu selektieren, z.B. die URL für Deinen Beitrag in diesem Forum lautet '/viewtopic.php?f=5&t=5397&p=30893#p30893'.
So wie ich das verstehe müsste der Index ziemlich leer bleiben weil außer '/index.php' nichts weiter indexiert werden dürfte wenn URLs mit einen '?' grundsätzlich ignoriert werden.

Auch viele andere Web-Seiten arbeiten intensiv mit Query-Strings, werden die alle ignoriert?
Oder verstehe ich da irgendetwas falsch?

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon ramfresser » So Okt 05, 2014 6:57 pm

Hallo

Ich habe ein Extensions was aus den Standarturl's der wbb Forumsoftware, suchmaschinenfreundliche Url's (wie z.B. http://www.krebsforum-fuer-angehoerige.de/forum/board_4_Vorstellungsrunde.html) erzeugt. Dazu kommt die Tage ein Extensions mit dem Conancial Tag, der dann dafür sorgen wird, das Url's mit einen Fragezeichen, nicht mehr indexiert werden müssen. Ich hoffe es klappt also wie geplant.

Nur schließe bei mir im Forum die Url's mit Fragezeichen nicht aus, sucht sich der Crawler dumm und dämlich, wie weiter oben schon beschrieben.

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon Erik_S » Di Okt 07, 2014 12:45 pm

Hallo,

ramfresser hat geschrieben:Ich habe ein Extensions was aus den Standarturl's der wbb Forumsoftware, suchmaschinenfreundliche Url's erzeugt.
Das ist toll, wird aber nur in wenigen Foren gemacht und auch etliche andere Seiten setzen voll auf Query-Strings. Also ich persönlich sehe schon Handlungsbedarf für YaCy das URLs '?' nicht einfach nur abgelehnt oder immer zugelassen werden sondern das es eine passende Heuristik gibt die Query-Strings auf die wesentlichen Bestandteile zusammenschrumpft und z.B. bei persönlichen Dingen das Crawlen ganz unterlässt. Aber natürlich nicht gleich sofort sondern wenn Zeit vorhanden ist. Ich denke die etablierten/großen Suchmaschinen haben entsprechende Logik, ich habe dort jedenfalls noch nie auf einer Suchergebnisseite Links mit Session-IDs o.ä. gesehen aber Query-Strings die z.B. direkt einen bestimmten Forenbeitrag ansteuern.

ramfresser hat geschrieben:Nur schließe bei mir im Forum die Url's mit Fragezeichen nicht aus, sucht sich der Crawler dumm und dämlich, wie weiter oben schon beschrieben.
Wie wäre es denn gar keine Session-IDs zu vergeben? Bei Seitenaufrufen wenn man nicht angemeldet ist (und ein Crawl-Bot dürfte nie angemeldet sein) ist eine Session-ID komplett unnötig und dient maximal dem Tracking der Bewegungen eines Users auf dem Web-Server. Vor Jahren hatte ich schon mal überlegt ob ich mir nicht ein Browser-AddOn baue das solche Session-IDs grundsätzlich aus allen Links und URLs entfernt aber für sowas reichen meine Kenntnisse in Java-Script nicht aus.

Grüße
Erik
Erik_S
 
Beiträge: 185
Registriert: Sa Aug 30, 2014 11:13 am

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon Orbiter » Di Okt 07, 2014 4:02 pm

Wir haben uns schon vor vielen Jahren mit Session-IDs rumgeschlagen.
Es gibt eine interne Heuristik, aber wenn die nicht hilft kannst du ganz einfach selbst eine Regel aufgrund eines regulären Ausdrucks erfinden und die dann im Expert Crawl Start unter Crawler-Filter -> Load Filter on URLs -> must-not-match eintragen.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: rasut4 - Beim Crawlen die SID ignorieren?

Beitragvon ramfresser » Di Okt 07, 2014 10:15 pm

Hallo

Gibt es eine Seite wo ich diese vorhandene Heuristik mir anschauen kann oder gibt es eventuell noch andere Beispiele zum anschauen?

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron