Gecrawlte Domain NUR bei site-spezifischer Suche anzeigen

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Gecrawlte Domain NUR bei site-spezifischer Suche anzeigen

Beitragvon mbehrens » Fr Dez 09, 2011 1:50 pm

Hallo,

wir haben seit einigen Tagen testweise YaCy im Einsatz als öffentliche Suchmaschine, da unsere Google Mini den Geist aufgegeben hatte.
Wir sind bisher sehr zufrieden damit.

Eine Funktion der Google Mini haben wir bisher noch nicht mit YaCy reproduzieren können:
In der Google Mini gab es die Möglichkeit, Suchergebnisse einer bestimmten gecrawlten Domain aus einem 'intranet-ähnlichen' Bereich (z.B. http://www.bisschenversteckt.meinedomain.de/.*) NUR dann anzuzeigen, wenn diese über einen Parameter wie site:www.bisschenversteckt.meinedomain.de explizit angefordert wurden.
http://www.bisschenversteckt.meinedomain.de/.* war dort aus der 'default_collection' (also der globalen Suche über alle gecrawlten Dokumente) ausgenommen.

Wir haben bisher keine Möglichkeit gefunden, dies mit YaCy nachzubauen. http://www.bisschenversteckt.meinedomain.de sollte auch nicht über den 'Domain Navigator' angezeigt werden.
http://www.bisschenversteckt.meinedomain.de in die Blacklist einzutragen bringt ja nichts, da dann gar keine Suchergebnisse dazu mehr ausgeliefert werden.

Für Hinweise, wie sich so etwas realisieren ließe, wären wir sehr dankbar. Unsere einzige andere Idee wäre bisher, für diesen Zweck eine zweite YaCy-Instanz aufzusetzen, die nur http://www.bisschenversteckt.meinedomain.de/.* crawlen und ausliefern darf...

MFG; M. Behrens
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon Orbiter » Fr Dez 09, 2011 2:23 pm

mbehrens hat geschrieben:wir haben seit einigen Tagen testweise YaCy im Einsatz als öffentliche Suchmaschine, da unsere Google Mini den Geist aufgegeben hatte.
Wir sind bisher sehr zufrieden damit.


:lol: :twisted:

also das hört sich sehr interessant an. Eine Frage dazu: wie kommt http://www.bisschenversteckt.meinedomain.de überhaupt in den Index bei der Google Mini? Da wird es doch wahrscheinlich so eine Crawl Start seite geben wie bei uns mit einem Flag das man setzt, damit die Seite per default nicht angezeigt wird?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon mbehrens » Fr Dez 09, 2011 3:42 pm

In der Google Mini konnte man die default_collection durch reguläre Ausdrücke weiter konfigurieren, also http://www.bisschenversteckt.meinedomain.de/* für die Default-Suche ausschließen.

Außerdem konnte man http://www.bisschenversteckt.meinedomain.de als 'Sammlung' einrichten. Auf diese Weise konnte man erreichen, dass die Suchergebnisse von http://www.bisschenversteckt.meinedomain.de/* nur dann angezeigt wurden, wenn diese spezielle Sammlung in der Abfrage als Parameter übergeben wurde.
In YaCy wäre das Äquivalent - soweit ich das bisher gesehen habe (Newbie) - site: bzw. inurl:

Was ist denn damit gemeint: ein Flag setzen, damit eine Seite per default nicht angezeigt wird?
Wo würde man das in YaCy machen?

MFG; M. Behrens
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon Orbiter » Fr Dez 09, 2011 10:56 pm

ah ok ich hatte das anders interpretiert: als Parameter beim Crawl start. Das hätte den Effect dass die so erfassten Seiten 'deep-navigation'-fähig sind, d.h. es ist performanter diese bei der Suche auszuschliessen.

In dem fall wie beschrieben ist es aber wohl einfacher: was ihr da braucht ist einfach ein default-Blacklistpattern auf die Urls die bei der Suche ausgeblendet werden sollen, aber durch den site-Operator dann doch genommen werden. Ein Site-Operator schaltet damit die Blacklist quasi aus.

Ich frage jetzt nur so nach weil ich euch das gerne einbaue, muss nur wissen dass ich auch genau das richtige mache. Also ich würde folgendes machen:
- auf der Seite http://localhost:8090/ConfigPortal.html kommt ein Feld in dem ihr mit einem regulären Ausdruck, der auf urls angewendet wird, Treffer ausschliessen könnt
- der Ausschluss wird aufgehoben wenn der site-Operator bei einer Suche auf eine URL matcht.

So ok?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon mbehrens » Mo Dez 12, 2011 8:54 am

- auf der Seite http://localhost:8090/ConfigPortal.html kommt ein Feld in dem ihr mit einem regulären Ausdruck, der auf urls angewendet wird, Treffer ausschliessen könnt
- der Ausschluss wird aufgehoben wenn der site-Operator bei einer Suche auf eine URL matcht.

Ja. Es geht uns nicht um den Crawl-Start. Es geht nur darum, dass man Treffer aus einer bestimmten Subdomain nicht bekommt, wenn man deren Adresse nicht bereits vorher kennt und diese per site: (oder besser inurl:?) übergeben kann.

Das wäre ziemlich genau das, was man auf der Google-Gerätschaft einstellen konnte ;-)

Wenn man das einbauen könnte, würde es uns das Aufsetzen einer zweiten Maschine für diesen Zweck ersparen.

Viele Grüße, Michael Behrens
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon Orbiter » Di Dez 13, 2011 12:25 am

Hallo Michael,

ich hab dir das eingebaut, du bekommst das über den auto-updater auf http://localhost:8090/ConfigUpdate_p.html in Version 1.01.9022

Das funktioniert aber nun nicht über einen regulären Ausdruck sondern über eine schlichte Liste von Hosts. Die Hosts musst du genau so formulieren wie wenn du sie am site: - Operator dran schreibst und dann per Komma getrennt in das neue Feld auf http://localhost:8090/ConfigPortal.html eintragen.

Das ganze über Hosts zu machen und nicht über einen regulären Ausdruck hat einen erheblichen Einfluss auf die Performance. Ich hoffe das geht so für euch.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon mbehrens » Di Dez 13, 2011 8:40 am

Super!

Na, das war ja eine prompte Reaktion.
Ich werde das ausprobieren und mich dann hier kurz melden.

Jetzt fehlt uns nur noch eine phonetische Suche ;-)

Michael
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon Orbiter » Di Dez 13, 2011 1:59 pm

mbehrens hat geschrieben:Jetzt fehlt uns nur noch eine phonetische Suche ;-)

Haben wir noch nicht aber ich schaue mal was geht. Scheint nicht sooo wild zu sein.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon mbehrens » Di Dez 13, 2011 3:02 pm

Eine möglichst umfassende/zielführende Reaktion auf falsch eingetippte Suchworte wäre in der Tat eine super Sache.
Wahrscheinlich kann man das auch noch besser machen als die Google Mini, aber das ist sicher nicht bis morgen zu machen ;-)

Erstmal ganz herzlichen Dank für die obige Erweiterung!
Ich gebe Euch dazu noch eine detailliertere Rückmeldung.

MFG, Michael
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon Orbiter » Di Dez 13, 2011 3:28 pm

mbehrens hat geschrieben:Eine möglichst umfassende/zielführende Reaktion auf falsch eingetippte Suchworte wäre in der Tat eine super Sache.

das haben wir ja bereits in zweifacher Hinsicht: durch die Vorschläge beim tippen und nach einer Suche in der 'meinten Sie vielleicht..' Zeile unter dem Suchfenster nach einer Suche.
mbehrens hat geschrieben:Wahrscheinlich kann man das auch noch besser machen als die Google Mini, aber das ist sicher nicht bis morgen zu machen ;-)

da kennst du mich noch nicht... aber wahrscheinlich klappt es dann doch nicht ganz bis morgen. :lol: Hab aber bereits vier Phonetic-Encoder (Metaphone, DoubleMetaphone, Soundex, Kölner Phonetik) heute Nachmittag in den Code gepflanzt und muss das noch anständig einbauen. Eine Anreicherung der Suchergebnisse mit phonetisch ähnlichen Wörtern hätte aber 2 Folgeeffekte:
- alles muss neu indexiert werden damit die phonetische Anreicherung des Indexes statt finden kann
- die Snippet-Generierung muss lernen wie man fuzzy auf den gefundenen Text matcht.

speziell letzteres wird dieses Feature ein wenig verzögern.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Gecrawlte Domain NUR bei site-spezifischer Suche anzeige

Beitragvon mbehrens » Mo Dez 19, 2011 11:10 am

So, wir haben das jetzt nach dem Update auf 1.01.9022 bei uns getestet, und es funktioniert genau so wie wir es uns gewünscht hatten.

www.bisschenversteckt.meinedomain.de ist auf ConfigPortal.html bei 'Exclude Hosts' eingetragen.

Die Ergebnisseiten unterhalb dieser Domain werden jetzt nicht mehr angezeigt - außer, wenn site:www.bisschenversteckt.meinedomain.de bei der Suche als Parameter übergeben wird.

Nochmals vielen Dank dafür!

MFG; Michael
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast