Collection & Cache & QNAP & Crawls löschen & Datenpflege

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Collection & Cache & QNAP & Crawls löschen & Datenpflege

Beitragvon HassanMullah » Do Mär 24, 2016 3:42 pm

Einen wunderschönen Gründonnerstag Nachmittag,

nachdem ich mich jetzt ein paar Stunden mit der Adminoberfläche beschäftigt habe (und mir immer noch sehr sehr viel gar nichts sagt), sowie dieses Forum teilweise auch schon angelesen habe, möchte ich gerne folgende 5 Fragen stellen:

1.) unter /CrawlStartSite.html habe ich die Möglichkeit eine "Collection" zu vergeben. Was ist damit genau gemeint? Ich hoffe mal folgendes: Wenn ich z.B. die Site http://www.monster.de und http://www.stepstone.de crawlen möchte, dann könnte ich als Collection Name z.B. "Jobsuche" angeben. Wenn ich dann die erweiterte Suche antriggere und nach dem Suchbegriff "Datenbank" suche, jedoch unter dem Feld "Vorzugsmaske" den Begriff "Jobsuche" eingebe, dann werden mir nur Ergebnisse der Sites http://www.monster.de und http://www.stepstone.de geliefert, welche irgendwo den Begriff "Datenbank" enthalten. Somit sehe ich keine "HowTo's" usw. von irgendwelchen Wikis oder so.

Ist meine Annahme richtig?

2.) Thema Cache. Ich habe auf meiner NAS ein paar Verzeichnisse, die "privater Natur" sind. Damit ich die jedoch mit YaCy crawlen kann, habe ich auf diese einen anonymen FTP Lesezugriff gesetzt. Meine YaSy Sucheingabe ist via https von Extern erreichbar (der Rest läuft bewußt im Juniormodus), mein FTP Port lasse ich jedoch nicht durch die NAS nach außen schauen. Ich habe jetzt die FTP Site mit dem öffentlichen FQDN crawlen lassen. Dabei bin ich dann natürlich in die Falle gelaufen, das ich keine Zugriff habe, da meine NAS das ja nicht zulässt. Jetzt kam ich auf folgende Idee. Ich würde den FTP Crawl + die gecrawlter Ergebnisse komplett löschen. Danach würde ich den FTP Crawl nochmals laufen lassen, aber mit der privaten IP Adresse, also ftp://192.168.*.* usw.. Von der vermuteten Logik, würden dann die gecrawlten Suchtreffer auch auf die URL ftp://192.168.*.* zeigen, d.h. diese wären auf gar keinen Fall im Internet verfügbar, es sei denn ich würde vor dem Anklicken des Links meine VPN Verbindung aufbauen, womit ich dann Mitglied in meinem privaten Intranet wäre.

Jetzt kommt aber mein Problem: Bei den Suchtreffern steht unten nebem dem Wort "Citations" auch das Wort "Cache". Und hier finde ich dann die Informationen wieder, aber nicht mit dem Zugriff via FTP, sondern als HTTPs gecachtet Site, d.h. jeder kann darauf zugreifen. Gar nicht gut!!!

Was muss ich machen, damit dieses "Cache" niemals für die FTP Site angezeigt wird?

3.) Aktuell habe ich YaCy auf einem Notebook mit Linux Mint 17.3 (8 GB RAM - 512 GB HDD) am laufen. YaCy bekommt großzügige 3072 MB für Java. Ich würde YaCy aber gerne auf meine weniger performante NAS umziehen. Es handelt sich um ein QNAP TS-112p mit 2TB HDD und leider nur 512 MB RAM (technische Details hier: https://www.qnap.com/i/de/product/model.php?II=132&event=2). Auf der NAS läuft folgende Java Version:

Code: Alles auswählen
[~] # java -version
java version "1.8.0_65"
Java(TM) SE Embedded Runtime Environment (build 1.8.0_65-b17, headless)
Java HotSpot(TM) Embedded Client VM (build 25.65-b01, mixed mode)


Soweit ich das jetzt erkenne, ist das ja nur die JRE und nicht das geforderte JDK 7

Könnte ich die YaCy Instanz trotzdem rüberkopieren, oder geht das mit der NAS und dem JRE nicht?

4.) Wie kann ich den Crawlvorgang + die gecrawlten Ergebnisse am schnellsten komplett bzw. pro FQDN löschen?

5.) Wie sollte man seine Suchmaschine pflegen, damit Sie

    a.) immer schön performant läuft
    b.) alte Daten, ab eines gewissen Alters entsorgt
    c.) schnell wieder hergestellt ist (Thema Datensicherung)


Danke an alle uns wunderschöne erholsame Osterfeiertage

Gruß Hassan
HassanMullah
 
Beiträge: 5
Registriert: Mi Mär 23, 2016 1:25 pm

Re: Collection & Cache & QNAP & Crawls löschen & Datenpflege

Beitragvon HassanMullah » Fr Apr 01, 2016 12:06 pm

Huhu, sind meine Fragen alle zu schwierig??
HassanMullah
 
Beiträge: 5
Registriert: Mi Mär 23, 2016 1:25 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron