Themen Suchportal und übergreifende Begriffe

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Themen Suchportal und übergreifende Begriffe

Beitragvon mac866 » Mo Nov 24, 2008 12:11 pm

Hi,

ich möchte mit meiner Kiste nach verschiedenen Themen indizieren und danach suchen.
Wie bekomme ich aber übergreifende Begriffe in den Griff?

z.B. das Thema Handwerk und das Thema Märchen.
Wenn ich nun beide Themen/Urls in einer Yacy-Instanz indiziere und nach Schloss suche, dann bekomme ich somit einen Themen-Mix heraus.

Gibt es irgendwie die Möglichkeit zu crawlende Urls einem Thema oder irgendetwas eindeutigem zuzuordnen und dann nur nach diesen zu suchen?
Oder brauche ich für z.b. 20 verschiedenen Themen auch 20 unabhängige Yacy-Instanzen auf meiner Kiste?

Vielen Dank!!!
mac866
 
Beiträge: 3
Registriert: Mo Nov 24, 2008 10:23 am

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Orbiter » Mo Nov 24, 2008 12:38 pm

irgendwo anders oder im englischen Forum hat jemand Crawl Tags vorgeschlagen. Dann würdest du beim Crawl start eine Tag-Menge angeben, die du beim Suchen mit verwenden kannst. Also beispielsweise:
- du indexierst erst eben jeweils mit Angabe der Tags Handwerk, bzw. Märchen
- dann kannst du die Ergebnisse bei der Suche nach Schloss qualifizieren, indem du entweder
'schloss tag:handwerk' oder
'schloss tag:märchen'
suchst.

Das ganze ist bislang nur eine Idee, noch nicht realisiert. Wäre das für dich eine Option?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon mac866 » Mo Nov 24, 2008 2:18 pm

ja, dass würde für mich genau passen!

thx & lg
mac866
 
Beiträge: 3
Registriert: Mo Nov 24, 2008 10:23 am

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Orbiter » Mo Nov 24, 2008 2:33 pm

ok, jetzt zu den Feinheiten:

such-Tags würden wie normale Wörter in den Index kommen. Dann muss man aber darauf achten ob diese auf andere Peers verteilt werden. Meiner Meinung nach sollte das aber nicht geschehen, denn andere Leute würden ggf. andere Tags vergeben oder diese sogar verfälschen. Meiner Ansicht nach sollte man also Tags nur lokal vorhalten. ok?

Weiterhin macht meiner Meinung nach so ein tag nur Sinn, wenn man weiss wie weit man welche Dokumente erreicht. Das weiss man nur wenn man beim Crawl Start sich auf eine Domäne beschränkt. Daher sollten Crawl tags nur bei Crawls auf einer einzelnen Domäne einzugeben sein, d.h. wenn man den Knopf 'restrict to start domain' anklickt. ok?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Lotus » Mo Nov 24, 2008 3:04 pm

Ich bin auch der Meinung, dass Tags nur lokal vorgehalten werden sollten. Diese könnten im Fall des Freeworld jedoch teilbar sein. D.h. ich kann mir ausgewählte Tags anderer Peers auf meinen laden und mit diesen suchen.
Wenn die Daten verteilt werden, müssten die empfangenen Links dann bei einer Suche auf Vorkommen im Tag-RWI geprüft werden.

Eine Beschränkung der Tags auf die Startdomain macht lokal Sinn. Im Freeworld könnte aber auch eine Link-Seite angesteuert werden und Domains mit Tiefe 1 ebenfalls gecrawlt werden. Wie verhält sich eigentlich ein Crawlstart vom File und auf die Startdomain begrenzt? Darüber gestartet wäre eine Begrenzung auf die Start-Domain ebenfalls praktikabel.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Orbiter » Do Nov 27, 2008 12:04 pm

Lotus hat geschrieben:Ich bin auch der Meinung, dass Tags nur lokal vorgehalten werden sollten. Diese könnten im Fall des Freeworld jedoch teilbar sein. D.h. ich kann mir ausgewählte Tags anderer Peers auf meinen laden und mit diesen suchen.

Das Teilen ist eine gute Idee. Das könnte man im Rahmen eines 'Abo' machen, mit 'einseitigen Buddies'

Lotus hat geschrieben:Wenn die Daten verteilt werden, müssten die empfangenen Links dann bei einer Suche auf Vorkommen im Tag-RWI geprüft werden.

da habe ich nicht verstanden, was meinst du mit Tag-RWI?

Lotus hat geschrieben:Eine Beschränkung der Tags auf die Startdomain macht lokal Sinn. Im Freeworld könnte aber auch eine Link-Seite angesteuert werden und Domains mit Tiefe 1 ebenfalls gecrawlt werden.

das ist ok.

Lotus hat geschrieben:Wie verhält sich eigentlich ein Crawlstart vom File und auf die Startdomain begrenzt? Darüber gestartet wäre eine Begrenzung auf die Start-Domain ebenfalls praktikabel.

Beim Crawlstart vom File wird jede URL im File als Startpunk mit den in den crawl-Start gesetzten Properties gesehen. Da würde eine Begrenzung auf die Start-URL automatisch so mit crawl-tags funktionieren.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Lotus » Do Nov 27, 2008 9:08 pm

Orbiter hat geschrieben:
Lotus hat geschrieben:Wenn die Daten verteilt werden, müssten die empfangenen Links dann bei einer Suche auf Vorkommen im Tag-RWI geprüft werden.

da habe ich nicht verstanden, was meinst du mit Tag-RWI?

Wenn das Tag als normales Wort gespeichert wird (im RWI), die Tags aber lokal vorbehalten werden und die Links jedoch global verteilt werden sollen (freeworld), dann muss bei einer globalen Suche nach lokalen Tags die gefundenen Links vor der Anzeige gegengeprüft werden. Denn wenn die Inhalte verteilt werden kann man nicht davon ausgehen, dass sie noch lokal existieren. Es sei denn es gibt einen "split-Index", welcher nicht verteilt wird. Dann profitiert jedoch das Netz nicht von den Links.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Orbiter » Fr Nov 28, 2008 10:02 am

was du mit 'gegengeprüft' meinst habe ich noch immer nicht verstanden. Was prüfst du gegen was genau?
Die Tags sollen so beschaffen sein, das sie automatisch immer lokal bleiben, und auch nie verteilt werden.
RWIs können ja durchaus verteilt werden, wenn das ganze funktioniert kommen sie ja bei einer Suche wieder zurück. Im Falle einer Konjunktion bei der Suche, und diese haben wir ja wenn man nach einem Wort und einem Tag sucht, muss man mit dem remote-index und dem lokalen tag-Index eine Schnittmenge bilden, das geschieht momentan ja mit den index-abstracts, wo eine kurzform des gesamten RWIs übermittelt wird. Vielleicht ist es das was du mit 'gegenprüfen' meinst?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Themen Suchportal und übergreifende Begriffe

Beitragvon Lotus » Fr Nov 28, 2008 11:54 am

Ja, Schnittmenge bilden hört sich gut an. Es muss eben sichergestellt werden, dass die remote Ergebnisse auch auf das Tag passen.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron