recrawl.conf optionen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

recrawl.conf optionen

Beitragvon mrks » Mi Sep 30, 2009 8:54 pm

Hallo,

beim crawlen sind ein paar neue Funktionen hinzugekommen, zb mustn ot match filter. wenn ich nun einen neuen crawl starte mit meiner alten recrawl config ist erst alles ok, wenn der recrawl initiiert wird wendet er wohl den default des must not match filters an, members.* etc..
gibt es eine neue recrawl config wo diese optionen gesetzt werden könne, bzw wie muss ich meine alte verändern, damit diese mit neueren versionen kompatibel ist?


danke!
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: recrawl.conf optionen

Beitragvon dulcedo » Do Okt 01, 2009 5:47 am

Das solltest du in DATA/SETTINGS/autorecrawl.conf festlegen können.
Diese Datei wird regelmässig ausgelesen und wenn einer der Zeiträume dort verstrichen ist wird der aufgeführte crawl mit den dort angegebenen Parametern ausgeführt.

Das funktioniert aber in Teilen nicht korrekt, die angesprochenen Filter und auch die Art zu indexieren (lokal/remote) werden nicht berücksichtigt, sobald die aktuellen Entwicklerversionen wieder stabil laufen wird das sicher korrigiert. Solange musst du dir dadurch helfen dass du die crawls manuell startest oder die angesprochenen Optionen nicht nutzt.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: recrawl.conf optionen

Beitragvon mrks » Do Okt 01, 2009 8:18 am

Das ist ja mein Problem : )
wenn ich zb die option must-not-match aus der config rauslasse (ich weiss ja nichtmal an welcher stelle der eitrag stehen sollte) nimmt er den default. Und der default ist in meinem Fall nicht korrekt.

Aber Du hast recht, ich sollte Geduld haben. : )


e:
viewtopic.php?f=5&t=2357
nächstes mal die suche benutzen... :)
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: recrawl.conf optionen

Beitragvon dulcedo » Do Okt 01, 2009 11:51 am

Da wäre die Frage an Apfelmaennchen und Orbiter was mit der Autorecrawl nun geplant ist. Wenn sie bleiben soll würde ich nach der Sache mal schauen und auch einen Editor dafür bauen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: recrawl.conf optionen

Beitragvon Orbiter » Do Okt 01, 2009 12:51 pm

das Problem hier ist komplex. Zunächst einmal ist es so, dass das fehlende must-not-match attribut von mir 'geflick' gepatcht wurde weil ich das für die geoclub.de - Suche brauchte. Dort gibt es einen regelmäßigen Crawl eines phpbb3 Forums, und der geht nur richtig mit den passenden must-not-match Einstellungen.

Die richtige Vorgehensweise wäre gewesen, die recrawl.conf zu überarbeiten. Das geht aber nicht so einfach, weil der gekoppelt ist mit einem Pfad, den man den Bookmark zuweist und sich auch einen Zeitraum bezieht, ich aber für das geziehlte Recrawl von einem Forum und andern Seiten jede Woche eigentlich mehrere Recraw-Einträge brauchen würde, die sich zwar jeweils auf den gleichen Zeitraum beziehen, aber nicht die gleiche must-not-match Einstellung haben.

Daher muss hier ein ganz neues Konzept her, so dass die Default-Recrawls weg fallen, und jeweils welche angelegt werden, wenn ein neuer Crawl dazu kommt. Das würde aber die Speicherung der Crawl-Attribute zu künstlich von den Crawl-Startpunkten trennen. Die richtige Lösung wäre es, die Crawl-Attribute in die Bookmarks mit hinein zu nehmen.

Dazu müsste sich aber wiederum jemand an die Bookmarks machen, und auch die recrawl.conf überarbeiten, weil die nun 'runtergemagert werden kann weil die Attribute der Crawls ja dann in den Bookmarks wären.

Insgesamt also eine Menge Arbeit. Wäre mir lieb wenn sich da mehr Leute dran beteiligen, weil ich das zeitlich momentan nicht kann. 'leider' gibt es auch noch dieses Thema OAI-MPH und viele andere Sachen die eine höhere Prio haben. Wenn Apfelmaennchen Zeit hätte wäre das ideal, weil das ja alles Dinge sind wo er auch dran gebaut hat (Bookmarks und recrawl), aber ich denke er ist auch bestimmt mit Arbeit voll. Freiwillige?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: recrawl.conf optionen

Beitragvon dulcedo » Do Okt 01, 2009 2:07 pm

Wenns nicht eilig ist wäre es ein guter Weg um mich mal in die Entwicklungsumgebung einzuarbeiten. Wenn mir da jemand hilft und natürlich auch bei der Sache selbst, Zeit hätte ich. Mit Apfelmännchen hatte ich das auf dem Linuxtag mal angesprochen und er mir auch Grundlagen erklärt.
@Apfelmaennchen: Ich schau einfach mal rein in den Code und mache ein Konzept?

Das ist mir soweit klar und hatte ich ähnlich angedacht. Sollte man das vielleicht nicht gleich komplett von Java ablösen? Du erwägst ja auch eine API für andere Sprachen, bzw die gibt es mit JSON schon, da würde ich auch gerne bei der Planung helfen was PHP betrifft. So könnte man viel direkt vom Board, Wiki oder allgemein vom Portalserver aus steuern können, als Plugin für die jeweilige Software. Crawls verwalten und Statusabfragen.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: recrawl.conf optionen

Beitragvon Orbiter » Do Okt 01, 2009 2:16 pm

API gut und schön, aber es muss alles Java-Native in YaCy vorhanden sein was man braucht. Es spricht nichts dagegen, eine API zu bauen von dem aus sich YaCy beim Crawlen von aussen steuern läßt, aber die Grundfunktion muss als hauseigene Funktion auch vorhanden sein.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: recrawl.conf optionen

Beitragvon dulcedo » Do Okt 01, 2009 4:13 pm

So war das auch gemeint, da habe ich mich unklar ausgedrückt. Eine Ergänzung um für kleine regelmässige Aufgaben wie Crawlstarts nicht die jetzige Oberfläche fernsteuern zu müssen, das bringt nur weitere Fehlerquellen und Verwirrung in dem Bereich. Die Autorecrawl würde ich in der Art lassen, alleine schon wegen abwärtskompatibel, alleine die Verwaltung bequemer und toleranter, und die Bugs raus. Das müsste ich hinbekommen, wenn Apfelmaennchen keine Zeit hat, eine Person die dran arbeitet immer besser.

"Die richtige Lösung wäre es, die Crawl-Attribute in die Bookmarks mit hinein zu nehmen."
Sehe ich exakt so, das muss dann aber Apfelmaennchen zumindest angehen, ihm helfen/übernehmen dann gerne. Ich würde sagen das ist auch nicht so dringend, toll sind erstmal die jetzigen Suchfunktionen und die Performance. Ein gründlicher Test noch was er genau crawlt, da könnte ich konkret Hilfe brauchen, ich bin grade an der Stabilität.

@mrks: Die Sachen mit den Filtern sind sehr ärgerlich aber ich helfe mir indem ich einfach manuelle crawl-starts unterschiebe, die allereinfachste Methode ist über ein GUI/Browser-Script das dir die Eingaben aufzeichnet und wieder nach Zeitplan abspielt. Holzhammer.
Die voreingestellten must-not-match haben mich bisher noch nicht behindert, sollte aber natürlich auch raus.
dulcedo
 
Beiträge: 1006
Registriert: Do Okt 16, 2008 6:36 pm
Wohnort: Bei Karlsruhe

Re: recrawl.conf optionen

Beitragvon mrks » Do Okt 01, 2009 6:08 pm

das wird schon gehen...

jetzt habe ich noch eine frage, die ist aber etwas offtopic.. wie muss denn die stopwords datei aussehen? komma getrennte werte? jeder wert eine neue zeile?

xxx1, xxx2, xx3

xxx1
xxx2
xxx3

?

: )
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: recrawl.conf optionen

Beitragvon Orbiter » Do Okt 01, 2009 6:14 pm

eine einfache Textdatei mit einem Wort pro Zeile
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: recrawl.conf optionen

Beitragvon mrks » So Okt 18, 2009 4:59 pm

Wenn yacy nun ein Dokument (txt pdf etc) durchsucht und darin eines meiner stoppwörter findet, wird dann das komplette dokument vom crawler ausgeschlossen?
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: recrawl.conf optionen

Beitragvon Orbiter » So Okt 18, 2009 9:37 pm

die Stoppwörter werden einfach ausgeschlossen, nicht das Dokument. Um den von dir beschriebenen Effekt zu bekommen, gibt es 'bluelisten' (yacy.blue). Stopwörter sind einfach die Wörter, die nicht in den Index gehen.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: recrawl.conf optionen

Beitragvon mrks » Mo Okt 19, 2009 7:54 pm

okay, bei mir gibt es leider genau diesen effekt... werde den crawl mal löschen und erneut indexieren...
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste