Anfängerfrage: Experten Crawler konfigurieren

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Anfängerfrage: Experten Crawler konfigurieren

Beitragvon Catta_Lina » So Mär 13, 2016 4:58 pm

Hallo zusammen,

ich bin vor ein paar Tagen zufällig im Internet auf dieses Projekt aufmerksam geworden und fand es auch interessant. Daraufhin dachte ich mir das so ein "Mitmach"-Versuch nichts schaden könne und installierte mir die entsprechende Datei und seitdem läuft YaCy bei mir im Junior-Modus um mich etwas vertraut damit zu
machen. Da die Menüführung doch im ersten Moment sehr verwirrend erscheint und die gefundenen Dokumentation (Wiki) ziemlich rudimentär bzw.teilweise
nicht übereinstimmend ist, bin ich halt etwas am experimentieren. Aber vielleicht ist es auch der anfänglichen Euphorie geschuldet ....

Nachdem ich mich mit der Such-Funktion, der Basis-Konfiguration, der Begriff DHT (Versand) und dem starten eines einfaches Crawlers beschäftigt habe, bin ich nun dabei
mich an dem starten eines erweiterten Crawlers (Experten Crawl Start/CrawlStartExpert.html) heranzutasten. Aber leider verliefen alle meine bisherigen Tests
einen erweiterten Crawler zu starten nicht gerade erfolgreich und werden unter "Abgelehnte URLs" mit der folgenden Fehlermeldung angezeigt:

FINAL_LOAD_CONTEXT url does not match must-match filter .*xxxxxxxx.xx/xxxx/xxxxxx (die URL habe ich mal hier durch "x" ersetzt)

Für die Tests habe ich verschiedene News-Seiten zum crawlen herangezogen um jeweils die aktuellen News einer Rubrik zu erfassen. Um hier jetzt nicht nochmal alle Einstellungen zu posten habe ich ein paar Scrennshots an meinem Posting beigefügt, die die vorgenommenen Einstellungen zeigen.

Ich wäre für einen Tipp (können aber auch mehrere sein ;) ) bezüglich des oberhalb geschilderten dankbar

Schöne Grüße
Catta_Lina
Dateianhänge
Test_eC_Start.jpg
Startpunkt des erweiterten Crawlers
Test_eC_Start.jpg (226.41 KiB) 1271-mal betrachtet
Test_eC_CrawlerFilter1v2.jpg
Einstellungen des Crawlerfilters
Test_eC_CrawlerFilter1v2.jpg (124.06 KiB) 1271-mal betrachtet
Test_eC_CrawlerFilter2v2.jpg
erweiterte Einstellungen des Crawlerfilters
Test_eC_CrawlerFilter2v2.jpg (108.36 KiB) 1271-mal betrachtet
Catta_Lina
 
Beiträge: 3
Registriert: Fr Mär 11, 2016 8:45 pm

Re: Anfängerfrage: Experten Crawler konfigurieren

Beitragvon promocore » Mo Mär 14, 2016 6:40 pm

Hallo Catta_Lina,

Du hast zusätzlich zu der URL noch Filterkriterien angeben.
Diese Filter sind nur optional und können weggelassen werden oder waren diese beabsichtig?

Ich setzte den Expertencrawler für URLs über eine Crawltiefe von 1 an, da ich hier mehrere Server glechzeitig indexieren kann und somit der Indexierungsdurchsatz gesteigert wird.


Gruß promocore
promocore
 
Beiträge: 71
Registriert: Mo Feb 08, 2016 8:50 pm

Re: Anfängerfrage: Experten Crawler konfigurieren

Beitragvon Catta_Lina » Mo Mär 14, 2016 9:29 pm

Hallo promocore,

danke für deine Antwort und deinen Tipp mit der zwecks der Crawlertiefe.

Wie schon aus mein Scrennshots ersichtlich ist, habe ich mir mal für meinen Test die Homepage http://derstandard.at/ ausgesucht und sie demzufolge als Start URL eingetragen. Da ich aber nur einen ganz bestimmten Bereich der Homepage crawlen wollte und zwar nur die neuesten News unter der Rubrik "International -> Europa" habe ich denn dieses URL die mir denn in der URL-Leiste meines Browser als http://derstandard.at/r514/Europa angezeigt wurde, versucht bei in Yacy (Experten Crawler) in der Rubrik "Crawler Filter" -> "Lade Filter auf URLs" -> "Filter nutzen" per Regex einzutragen.
Ich hoffe, das ich deine Frage damit beantworten konnte wie ich mir es eigentlich dachte und warum ich folgende Einstellungen vorgenommen habe.

Schöne Grüße
Catta_Lina
Catta_Lina
 
Beiträge: 3
Registriert: Fr Mär 11, 2016 8:45 pm

Re: Anfängerfrage: Experten Crawler konfigurieren

Beitragvon sixcooler » Mo Mär 14, 2016 11:10 pm

Hallo Catta_Lina,

versuche es mal mit dem crawlen 'Von Linkliste der URL' (in deinem 1. Screenshot). evtl. ist der Link zu den von Dir gewünschten Seiten nicht auf der eingangseite und der Filter verhindert das der Crawler dort hin kommt.
Zur Crawltiefe: eine Crawltiefe von 1 bedeutet das nur 1x den gefundenen Links gefolgt wird - also keinen Links der Seiten die von gefunden Links stammen - Du musst entscheiden ob Du das möchtest.

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Anfängerfrage: Experten Crawler konfigurieren

Beitragvon Catta_Lina » So Mär 20, 2016 9:37 pm

Hallo sixcooler,

leider war es mir in letzter Zeit nicht möglich früher zu antworten.

Danke für deinen Tipp mit der Linkliste, der zu funktionieren scheint. Aus der angezeigten Linkliste von Yacy (Experten Crawler) in der Rubrik "Startpunkt" -> "Von Linkliste der URL" lässt sich erkennen das der Link auch von der Eingangsseite eigentlich zu erreichen sein müsste. Das Negative an der Sache ist aber, wenn ich den Punkt "Von Linkliste der URL" auswähle das er mir leider alle Unterverzeichnisse durch crawlt die mit der Eingangsseite verbunden sind und nicht nur die von mir gewünschte Rubrik.
Habe mal meine vorher beschriebene Vorgehensweise bei anderen Portalen getestet, wobei ich immer dieselbe Fehlermeldung bekam (siehe Anfangsposting):
FINAL_LOAD_CONTEXT url does not match must-match filter .*xxxxxxxx.xx/xxxx/xxxxxx (die URL habe ich mal hier durch "x" ersetzt)

Auf meiner Suche nach einer möglichen Fehlerursache bin ich auf folgende Seite gestoßen, die die Einstellungen eines Experten-Crawls an einem Bsp. beschreiben. Selbst wenn ich ein Test mit den dort beschriebenen Einstellungen durchführe, erhalte ich obige genannte Fehlermeldung.

Könnt ihr mir posten, worin der Fehler könnte

Schöne Grüße
Catta_Lina
Catta_Lina
 
Beiträge: 3
Registriert: Fr Mär 11, 2016 8:45 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast