Voreinstellung MustNotMatch

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Voreinstellung MustNotMatch

Beitragvon dulcedo » Mo Sep 07, 2009 8:29 am

Seit kurzem wird bei jedem Crawl der MustNotMatch Filter vorbelegt, wohl mit Masken für Forenlinks die nicht gecrawlt werden sollen. Wo kann ich das deaktivieren?
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Voreinstellung MustNotMatch

Beitragvon Orbiter » Mo Sep 07, 2009 8:50 am

das ist ein Hack den ich brauchte, um bei der Geocaching-Suche, die automatisch jede Woche Crawlt nicht falsche Seiten rein zu bekommen. Ursache ist, dass das auto-recrawl über die Bookmarks die must-not-match nicht kennt, und der recrawl dann falsch läuft. Da habe ich einfach überall default-Werte gesetzt, mit denen ich gute Erfahrungen gemacht habe (hier: phpbb3 Filter). Ob das da sein muss, wo du die jetzt per default siehst weiss ich nicht. Jedenfalls wäre hier ein bessres Komplettkonzept besser, wie beispielsweise Vorschlags-Filterlisten, die man beim Crawl aussucht. Und der auto-recrawl muss auch angepasst werden.

Bei der momentanen Lage der Mitarbeit durch weitere Entwickler bin ich nicht in der Lage, hier mehr als kleine Patches zu machen. Das hier sind Themen, die ohne weiteres durch 'externes' Engagement angegangen werden könnten. Ich werde diese Dinge auch irgendwann richtig machen, wenn Zeit dazu ist, die ist aber momentan knapp.

Als Work-Around kannst du ja einfach im Eingabefeld den voreingestellten Wert raus löschen.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Voreinstellung MustNotMatch

Beitragvon dulcedo » Mo Sep 07, 2009 9:51 am

Er trägt sie selbstständig ins Crawl-Profil ein, das Eingabefeld bei CrawlStart ist leer.
Der MustMatch Filter funktioniert bei AutoReCrawl auch nicht, dort hilft aber kein solcher Hack weil der Filter bei "AutoDomFilter" dynamisch erzeugt wird.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Voreinstellung MustNotMatch

Beitragvon Orbiter » Mo Sep 07, 2009 10:04 am

dulcedo hat geschrieben:Er trägt sie selbstständig ins Crawl-Profil ein, das Eingabefeld bei CrawlStart ist leer.

na das ist natürlich falsch, muss ich nochmal gucken.

dulcedo hat geschrieben:Der MustMatch Filter funktioniert bei AutoReCrawl auch nicht, dort hilft aber kein solcher Hack weil der Filter bei "AutoDomFilter" dynamisch erzeugt wird.

oh je, das wäre schlecht. Weiss aber nicht ob das stimmt, weil es den AutoDomFilter schon gab bevor es den must-not-match gab, muss ich gucken.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Voreinstellung MustNotMatch

Beitragvon dulcedo » Mi Sep 09, 2009 3:52 am

Die Einstellung für Remote-Crawling scheint auch nicht berücksichtigt zu werden.
So sollte eigentlich nicht remote abgearbeitet werden, für CrawlStart ist auch crawlingQ=FALSE eingetragen, im täglich angelegten Profil steht dann allerdings TRUE. Wie angesprochen wird auch die 1 für DomFilter ignoriert, oder mein Bedienungsfehler?
Code: Alles auswählen
# schedule|folder|filter|crawlingdepth|crawlingIfOlder|DomFilterDepth|DomMaxPages|crawlingQ|indexText|indexMedia|crawlOrder|xsstopw|storeHTCache
86400000   /autoReCrawl/daily   .*   4   1439   1   -1   false   true   true   true   false   false
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Voreinstellung MustNotMatch

Beitragvon dulcedo » Fr Sep 18, 2009 2:38 am

dulcedo hat geschrieben:Er trägt sie selbstständig ins Crawl-Profil ein, das Eingabefeld bei CrawlStart ist leer.
Der MustMatch Filter funktioniert bei AutoReCrawl auch nicht, dort hilft aber kein solcher Hack weil der Filter bei "AutoDomFilter" dynamisch erzeugt wird.


Beide Bugs treten immer noch beim AutoReCrawl auf.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Voreinstellung MustNotMatch

Beitragvon dulcedo » Mi Nov 04, 2009 9:58 am

Die Unterscheidung Remote/Lokal-Crawling geht beim AutoReCrawl immer noch verloren, das macht diesen für mich unbrauchbar.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: Voreinstellung MustNotMatch

Beitragvon Orbiter » Mi Nov 04, 2009 10:32 am

..sowie alle weiteren Attribute die man noch einem Crawl Profil hinzufügen würde (was ich vor hatte), da diese in der statischen tabelle des auto recrawl nachgezogen werden müsste. Hier gehts nicht um einen Bugfix, sondern um eine grundsätzliche Renovierung. Wäre super wenn sich dafür ein Maintainer finden würde, habe dafür momentan nicht genügend Luft.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Voreinstellung MustNotMatch

Beitragvon dulcedo » Mi Nov 04, 2009 10:42 am

Das würde im Zuge dessen was wir besprochen haben sowieso anfallen, ich schaue es mir an.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste