Parser- oder Indexer-Fehler?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Parser- oder Indexer-Fehler?

Beitragvon wsb » Fr Aug 07, 2009 1:52 pm

Hi all,

was läuft bei folgendem verkehrt?: ich crawle den Server http://www.heinzkornemann.de

Dann schaue ich nach, ob von den Seiten unter http://www.heinzkornemann.de eine ganz bestimmte Seite erfasst ist, suche mit den Wörtern >Stau+im+Bober+zwischen+Jannowitz+Rohrlach< und resource=local

Und GENAU die richtige seite wird gefunden :-) => http://www.heinzkornemann.de/jannowitz3.htm

Dann nehme ich zwei andere Wörter der GLEICHEN Seite >Heimattreffen+Jannowitzer< und die Seite wird NICHT mehr gefunden :-(

Das sieht mir nach einem Fehler im Parser oder Indexer aus?

Grüße
wsb
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Parser- oder Indexer-Fehler?

Beitragvon Orbiter » Fr Aug 07, 2009 2:57 pm

kein richtiger Bug, denn dahinter steckt mein 'Stemming für arme': Beim parsen des Textes werden Wörter in einem Dokument gesucht, die sich bis auf die letzten zwei Buchstaben nicht von einem kürzeren Wort unterscheiden, und dann wird das längere Wort verworfen. In deinem Fall also: Jannowitzer ist nicht im Index, weil Jannowitz schon drin ist.

Also sollte eine Suche nach >Heimattreffen+Jannowitz< funktionieren. Ist ja auch das was man suchen würde wenn man den Text nicht kennen würde ;)
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Parser- oder Indexer-Fehler?

Beitragvon wsb » Fr Aug 07, 2009 6:39 pm

Orbiter hat geschrieben:kein richtiger Bug, denn dahinter steckt mein 'Stemming für arme': Beim parsen des Textes werden Wörter in einem Dokument gesucht, die sich bis auf die letzten zwei Buchstaben nicht von einem kürzeren Wort unterscheiden, und dann wird das längere Wort verworfen. In deinem Fall also: Jannowitzer ist nicht im Index, weil Jannowitz schon drin ist.

Also sollte eine Suche nach >Heimattreffen+Jannowitz< funktionieren. Ist ja auch das was man suchen würde wenn man den Text nicht kennen würde ;)


Ok, letzeres geht. Kann man das Stemming beim Indexieren abschalten? Denn das Stemming ist hier (und nach nach meinen Erfahrungen meistens) eher schädlich. Hier kommt das Wort >Jannowitz< allein sowieso noch im Text vor. Aber wer nach dem Heimattreffen sucht, wird immer >Jannowitzer+Heimattreffen< eingeben.

Oder kann man bei der Sucheingabe wortgenaue Suche erzwingen, wie bei Google mit dem + davor? Denn auch Google macht ja so ein Stemming, was oft auch voll daneben ist.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Parser- oder Indexer-Fehler?

Beitragvon Orbiter » Sa Aug 08, 2009 8:14 am

ich kann daraus eine Einstellung für den Indexer machen, so dass man es beim Crawl start setzen kann -> Wishlist
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron