"Spezial" Crawler

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

"Spezial" Crawler

Beitragvon csuno » Mi Jul 08, 2015 11:39 am

Hey...

ich versuche gerade ein YaCy System im lokalen Firmenintranet auf zu setzen um eine alte Dokumentenablage zu indizieren. GGF wollen wir spaeter auch unkritische (aber massenhafte) Datenloggerdaten indizieren lassen und auf ein "Datengrab" laufen lassen.
Yacy koennte uns dann super dabei helfen dann doch recht fix gezielte Daten wieder raus zu finden...

Meine frage nun, bzw. mein Problem... diese Daten liegen eigentlich in Klartextdateien, aber die Dateierweiterungen sind z.B. "msg". Kann man da moeglichst unkompliziert einen Textcrawler abaendern um ihn auch diese Dateiformate indizieren zu lassen?

Vorab schonmal danke fuer eure Gedankengaenge ;) csuno
csuno
 
Beiträge: 3
Registriert: Mi Jul 08, 2015 11:29 am

Re: "Spezial" Crawler

Beitragvon Orbiter » Mi Jul 08, 2015 4:42 pm

Hi, gute Idee, habs eingebaut in https://github.com/yacy/yacy_search_ser ... f536006533
Bin gespannt ob das geht, schreib doch mal.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: "Spezial" Crawler

Beitragvon csuno » Do Jul 09, 2015 12:54 pm

Sieht gut aus.
Kann man da evtl. in Zukunft (FeatureRequest) was einbauen, dass man in gewissen Rahmen eigene Filetype/Extensions aufnehmen kann? Am besten natuerlich per Webadministration?

THX fuer die schnelle Umstezung!

EDIT: gibt scheinbar doch einige Probleme... der Indizierungsprozess dauert recht lang, deshalb ist es mir jetzt erst aufgefallen. Er scheint bei einigen msg Dateien nun den Link bzw den Namen falsch ab zu speichern.
Dort steht dann jedesmal etwas anderes.
Das Problem ist, dass das vertrauliche Daten sind und ich dir leider nicht einfach hier ein Log reinstellen kann. Ich beobachte es aber noch, versuche eine Systematik zu finden und ggf. cleane ich einige Logs fuer dich....
csuno
 
Beiträge: 3
Registriert: Mi Jul 08, 2015 11:29 am

Re: "Spezial" Crawler

Beitragvon csuno » Mo Jul 13, 2015 3:00 pm

Also... nachdem ich das ganze jetzt merhfach erstmal nur mit einem Teildatenbestand probiert habe... kann ich folgendes zusammenfassen.
Der Parser finded scheinbar in den MSG Dateien Links (HTTP/MAILTO) und Nimmt diese als Eintrag in den Index auf. Die sind allerdings in den Suchergebnissen recht sinnlos, da sie (ich glaube immer) fehlerhaft sind.

Er benennt den Eintrag dann nach einem Teil (nach vorn bis zum ersten Slash) der URL die er in der MSG gefunden hatte und setzt auch den Link ungefaehr: "originalquelle/gefundenerlink". Der natuerlich auch nicht funktionieren kann.

Muss man (du) da jetzt am Parser basteln, oder kann ich irgendwie einfach das Linkfinden deaktivieren?
Ich habe auch eine MSG prepariert um dir mal eine Beispieldatei zeigen zu koennen.
Wenn ich dir da dann etwas zu arbeiten kann/soll gib mir einfach kurz bescheid.

Hast du den Edit Teil meines letzten Posts gelesen?

Danke dir/euch fuer eure Arbeit! ;)
csuno
 
Beiträge: 3
Registriert: Mi Jul 08, 2015 11:29 am

Re: "Spezial" Crawler

Beitragvon Orbiter » Mo Jul 13, 2015 3:09 pm

der msg Parser ist natürlich kein 'echter' msg parser der die speziellen Eigenschaften des Dateityps berücksichtig. Ich weiss aber dass dieses psg-Format einfach ein ASCII-Dump des SMTP streams ist, und da ist einfach halt nach dem email-Header (der einem http header recht ähnlich ist) der Textteil in dem auch html sein kann, aber nicht muss. Deswegen sollte der html-Parser, den ich dafür deklariert habe auch ganz gut funktionieren.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast