sessionid.names

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

sessionid.names

Beitragvon gaston » Di Aug 14, 2012 5:56 pm

Ich weiß jetzt nicht genau wie YaCy hier vorgeht, aber der Eintrag "sid" ist zu ungenau und filtert viel zu viel. Den Eintag zu löschen ist aber auch keine Lösung.

Wenn das Ganze über RegEx läuft, hier die "richtigen" filter...

zuvor ein toLowerCase()...
Code: Alles auswählen
sid= oder sid%3 (sid=)   regex: sid(?:=|%3d)              // werden URLs vorher nicht normalisiert?
sid_  a-z 0-9 länge 16+  regex: sid_(?:[a-z]|[0-9]){16,}  // a-f reicht nicht immer
_sid  a-z 0-9 länge 16+  regex: _sid(?:[a-z]|[0-9]){16,}
/sid/ a-z 0-9 länge 16+  regex: /sid/(?:[a-z]|[0-9]){16,}
/sid_ 0-9     länge  8+  regex: /sid_(?:[0-9]){8,}

Noch besser, bei Crawler URLs die SessionID entfernen, überprüfen ob die Seite immer noch erreicht wird (in der Regel ja, es wird automatisch eine neue oder die gleiche SessionID hinzugefügt) und bei Erfolg dann speichern (ohne SessionID ;) ). Das würde uns viele neue URLs bringen ohne Duplikate.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: sessionid.names

Beitragvon Orbiter » Mi Aug 15, 2012 10:20 pm

guter Hinweis, das Ding ist ja uralt und ich wusste gar nicht mehr dass wir so eine Datei haben. Nein sind keine regex sondern property-Namen welche bei Auftreten entfernt werden. Das ganze wird in MultiProtocolURI.getFile ausgeführt. Ich weiss nicht ob hier eine regex richtig wäre aber ggf. hast du recht wenn du sagst es wäre ungenau.
Ein doppel-überprüfen beim Laden... hm ganz schön aufwendig.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: sessionid.names

Beitragvon gaston » Do Aug 16, 2012 8:46 am

Ob das nun aufwändig ist ..., wir wollen hier doch was finden! ;)

Man könnte ja auch erst mal einfach mal die Überprüfung weglassen zum testen. Wichtig ist halt das der Crawler mit SessionID arbeitet aber der URL-Hash erst berechnet wird wenn die SessionID entfernt wurde und die RWIs den richtigen URL-Hash zugewiesen bekommen.

Ich würde das nicht mit RegEx machen sondern den Filter selbst schreiben, ist zwar aufwendige, ist aber flexibel-er. Es gibt noch einige SessionIDs die YaCy einfach durchlässt, z.B. das "&s=....."
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron