fehlerhafte recrawls

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

fehlerhafte recrawls

Beitragvon mrks » Di Nov 10, 2009 12:16 am

Hallo, ....
ich nutze yacy nun seit längerem für unser firmeninternes wiki, das klappt wunderbar. das wiki wird nur mit einer tiefe von einem folder gecrawlt.
dann habe ich begonnen unsere netzlaufwerke über den apache verfügbar zu machen um diese auch durchcrawlen zu können... leider funktioniert das überhaupt nicht .... ich hab mehrere konfigurationen ausprobiert. jedoch habe ich es nicht hinbekommen, dass yacy den kompletten verzeichnisbaum durchcrawlt, sondern nur im angegebenen verzeichnis, nicht in den subfoldern.

ich habe ein bookmark definiert:
bookmark.jpg
bookmark.jpg (41.79 KiB) 535-mal betrachtet


dazu habe ich meine recrawl.conf:
Code: Alles auswählen
3600000   /cray       http://xxxx:81/beratung/.*    15   55   -1   -1   false   true   true   true   false   false


und meinen crawl den ich einmal anschubse:
crawl.jpg
crawl.jpg (152.94 KiB) 534-mal betrachtet



irgendwo steckt ja sicher ein fehler drin..


also ich starte den crawl.. dann finde ich im Indexier-Puffer alle unterverzeichnisse von /beratung
Code: Alles auswählen
xxxxpeer     xxxxpeer     http://xxxx:81/vorlagen/     url does not match must-match filter


was logisch ist: vorlagen liegt nämlich dort: http ://xxxx:81/beratung/vorlagen/

yacy hat ein falsches "crawl-root"? es muss ja an der reg ex liegen? muss der einfach nur "http://xxxx:81/beratung.*" sein oder nur ".*" ? :/
eigentlich möchte ich dort überhaupt keine filterung durchführen, er soll einfach ab dem verzeichnis alles indexieren was erreichbar ist...


mit .* meldet er mir:
xxxxpeer xxxxpeer http ://xxxx:81/visio/ cannot load: load error - REJECTED WRONG STATUS TYPE '404 Not Found' for URL http ://xxxx:81/visio/
auch hier wieder: /beratung/visio wäre korrekt
ist einfach die falsche basis-url.. :-|
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: fehlerhafte recrawls

Beitragvon bluumi. » Di Nov 10, 2009 1:07 pm

Versucht mit http://xxxx:81/beratung/ als Bookmark hast Du?
bluumi.
 

Re: fehlerhafte recrawls

Beitragvon mrks » Di Nov 10, 2009 1:40 pm

Du mein die bookmark url soll http ://xxxx:81/beratung/ sein?

So ist sie ja definiert, siehe Anhang.

edit: ach, du meinst den abschließenden slash ... nein das habe ich (glaube ich) nicht ausprobiert...
ich probiers gleich nachher aus.. danke schonmal, hoffentlich wars das schon ...
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: fehlerhafte recrawls

Beitragvon bluumi » Di Nov 10, 2009 4:07 pm

mrks hat geschrieben:edit: ach, du meinst den abschließenden slash ... ich probiers gleich nachher aus.. danke schonmal, hoffentlich wars das schon ...

Jedenfalls war es die einzige Idee welche mir kam :) .. ich überlegte mir, dass er vielleicht be "http ://xxxx:81/beratung" als http ://xxxx:81/ + "Ausgangsdatei" "beratung" ansieht und nur mit dem abschliessenden Slash es als Verzeichnis korrekt erkennt .. War ein hoffentlich hilfreicher Gedanke ;)
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: fehlerhafte recrawls

Beitragvon mrks » Di Nov 10, 2009 4:42 pm

Jetzt wo ich drüber nachdenke macht es auch Sinn.. dieser trügerische grüne Haken der einem symbolisieren soll die Start-URL wäre korrekt... :twisted:

Sobald ich zuhause bin probiere ich es aus und werde mich melden.
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm

Re: fehlerhafte recrawls

Beitragvon Orbiter » Di Nov 10, 2009 8:59 pm

ich weiss nicht ob das hier hilft, aber man kann auch YaCy als hoster der intranet-Seiten benennen, indem man auf /ConfigBasic.html im Eingabefeld unter der "Intranet Indexing"-Option den Pfad zum freigegebenen Netzlaufwerk einträgt. Wäre das eine Option?

übrigens: dem screen shot nach benutzt du eine recht alte Version, die noch keine Möglichkeit hatte aus einem HTCACHE heraus zu crawlen. Das wäre hier keine notwendige Funktion, aber daran sehe ich einfach dass du was älteres hast. Mach doch mal ein Update.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: fehlerhafte recrawls

Beitragvon mrks » Di Nov 10, 2009 10:29 pm

Hallo Orbiter,

das hatten wir schonmal in einem anderen Thread. Da es mehrere Netzlaufwerke sein müssen musste ich einen separaten webserver dafür installieren.

ich hab bewusst eine ältere version gewählt, da die neuen optionen in der recrawl.conf zu problemen bei mir geführt haben, aber da das nun wahrscheinlich am bookmark lag, werde ich nach einem erfolgreichen crawl updaten

danke dir!

edit: JA! der slash war es... ich danke dir bluumi!
mrks
 
Beiträge: 13
Registriert: Do Mai 28, 2009 6:10 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron