Suche in einer Submenge des Indexes? Bzw. Vergabe von Attrib

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Suche in einer Submenge des Indexes? Bzw. Vergabe von Attrib

Beitragvon weazle » Mi Jun 09, 2010 10:15 am

Hallo,

ich habe folgendes Problem(e):

Ich möchte in yacy eine Suche über eine Submenge von Urls machen. Geht das? Wenn ja wie?
Kann ich den Suchergebnissen Kategorien bzw. Attribute zuweisen (aus der Indexliste vorgegeben)

Genauere Erläuterung:

Gegeben: Folgende Datensätze/ vorgabe für eine Indexerzeugung:
5 Urls jede hat n>=0 Attribute:
1; http://www.abc.de/witze ; lustig,spam
2; http://www.abc.de/info ; nachrichten
3; http://www.def.de/ ; lustig, nachrichten
4; http://www.murks.com ; spam, muell, wetter
5; http://www.bla.com ; wetter, blubb
6; http://www.ohneattrib.com/blubb ;

Anforderung:
Indexerzeugung/Crawlen einer Tiefe von 1 (Url + weiterführende Links gleicher URL) mit Anreicherung der Attribute

Beispiel 1:
Suchwort: "Hallo"
Kategorie: nachrichten"
Oder fast noch besser.: Hallo nachrichten
Soll AUSSCHLIESSLICH den Begriff "Hallo" in den gecrawlten Seiten der Urls 2 & 3 suchen
Dabei könnte ich yacy auch vorgeben, dass er nur im index mit den urls/vorgegebenen ids 2 & 3 suchen soll

Beispiel 2: (komplexer bzw. noicht allzu schlimm)
Suchwort: "Hallo"
Kategorie: blubb"
Oder fast noch besser.: Hallo blubb
Soll AUSSCHLIESSLICH den Begriff "Hallo" in den gecrawlten Seiten der Urls 5 & 6 suchen
Hier müsste ich yacy komplett die ontologische "Entschlüsselung" überlassen

Ist das mit yacy möglich?
weazle
 
Beiträge: 4
Registriert: Mi Jun 09, 2010 9:47 am

Re: Suche in einer Submenge des Indexes? Bzw. Vergabe von Attrib

Beitragvon Lotus » Mi Jun 09, 2010 4:49 pm

Ja, das ist möglich. Und zwar muss das bei der Abfrage angegeben werden.
Als Werkzeug dazu dienen die "Regular Expression" Filter, die bei einer Suche angegeben werden können. Das Feld dazu heißt "URL mask".

Beispiel der URLmask für Beispiel 1:
.*abc.de/info.*|.*def.de.*
Beachte: Regular Expression Syntax!
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Suche in einer Submenge des Indexes? Bzw. Vergabe von Attrib

Beitragvon weazle » Mi Jun 09, 2010 10:38 pm

Ok, das ist schonmal schön d.h. ich kann schonmal nach URL´s filtern.

Dazu die Frage: Wie lang darf eine solche Expression sein?

Ich möchte die Daten eh via API an und vom Suchsystem haben, dh. Ich habe ein Formular, das schickt dann den gesuchten Begriff, automatisch angereichert mit dem URL-Filtern an das System.

Und schlußendlich bliebe noch zu klären wie es um die weiteren Attribute steht. (die hinter den URL´s: lustig,spam,nachrichten) Bzw. kann ich dem Index, URL spezifisch noch um Informationen anreichern?
Also wie im ersten Post beschrieben oder auch z.B. Geokoordinaten oder andere ggf. eineindeutige Identifikatoren meiner URL Liste (Kommt ja aus einer DB).
Könnte ich das ggf. mittels der surrogates api und einer spezielle suchtiefe erledigen?

EDIT:

Idee für die weiteren Attribute:
datei nach dublin core mit urls und eigenen meta informationen aus der db generiert ablegen/zur verfügung stellen
yacy nutzt dann diese datei für tifergehende crawls der definierten urls.
weazle
 
Beiträge: 4
Registriert: Mi Jun 09, 2010 9:47 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron