Beeinflussung des Crawl-Verhaltens

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Beeinflussung des Crawl-Verhaltens

Beitragvon fliebke » Mo Apr 15, 2013 5:35 pm

Hallo YaCy-Gemeinde,

wie kann man es hinkriegen / einstellen, dass nur genau solche Webseiten in den Index aufgenommen werden, die bestimmte Suchbegriffe enthalten ?

Oder allgemeiner:
....., die als Datei bestimmte allgemeine Eigenschaften besitzen (z.B. auf festgelegte Dateitypen / Links verweisen) ?

Für Infos hierzu vielen Dank !
Felix
fliebke
 
Beiträge: 2
Registriert: Mo Apr 15, 2013 5:15 pm

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon Orbiter » Mi Apr 17, 2013 2:55 pm

das kann man nicht einstellen, dazu gibts noch keine Funktion. Wofür braucht man das?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon RoGott » Sa Apr 20, 2013 10:55 am

Ich hatte auch schon so eine Anfrage vorbereitet.
Ich denke mal so eine Anzahl bestimmter Keywords und an Hand dieser Wörter oder Wortes, Webseiten einlesen.
Nehmen wir mal meine Thüringer-Suche.de soll Mitteldeutschland absuchen und ich gebe eine Stadt vor und gebe diesen Stadtnamen ein und Yacy soll alle fast nur Webseiten die den Stadtnamen enthalten einlesen.

Also eine Liste mit Keywords vorgeben.

Gruß Roland
RoGott
 
Beiträge: 44
Registriert: Fr Aug 24, 2012 2:05 am
Wohnort: Erkelenz Geneiken

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon Orbiter » Mo Apr 22, 2013 10:29 am

'bestimmte Suchbegriffe' ist machbar, etwas schwieriger 'bestimmte allgemeine Eigenschaften' weil hierzu eine formale Beschreibung notwendig ist oder mehr im Detail festgelegt werden sollte was man filter soll und wie. @fliebke: hast du ein Beispiel?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon RoGott » Mo Apr 22, 2013 1:17 pm

Sagen wir mal ich möchte alle, fast alle Webseiten von Dresden einlesen lassen oder von Yacy finden lassen und gebe den Suchbegriff Dresden vor.
Starte z.B. bei Dmoz oder einem anderen Webkatalog der Url von Dresden gesammelt hat wie, z.B. auch Meine Stadt oder Sachsen.de
Yacy dursucht die Überschrift, Url, Description, und den Contens nach dem Wort Dresden, findet er es, liest er sie ein, findet er nichts, wandert er weiter.
Die URLs gehen in den Datenbestand ja über
So könnte ich mit meiner Idee sprich Vorhaben z.B. alle Städte Mitteldeutschlands also Thüringen Sachsen und Sachsen-Anhalt und Randgebiete, sowie noch andere Begriffe, die ich haben will, wie alle Kräuternamen, Krankheitsnamen, Kungfubezeichnungen, vorgeben, und Yacy könnte rückgreifend auf diese Schlagwörter, ständig im Web abgrasen an Webseiten die da vorhanden sind oder entstehen.
Ich hatte mal ein Plugin für Wordpress, welches über die API Schnittstelle von Yahoo lief, und gab dann Keywords vor, dann crawelte das allen Index was es ueber Yahoo fand und welches das Keyword enthielt durch und über gefunde Sachspezifische Links der gefunden Seiten weiter, baute so auch ein Linkliste auf, die das Fachgebiet des Suchbegriffs enthielt, Leider stellt Yahoo die Schnittstelle seit der Verbindung mit Bing nicht mehr Free zur Verfügung
Wenn ich noch spezieller erklären soll sage bitte Bescheid
RoGott
 
Beiträge: 44
Registriert: Fr Aug 24, 2012 2:05 am
Wohnort: Erkelenz Geneiken

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon Orbiter » Mo Apr 22, 2013 9:23 pm

ok wäre dann so ein radio-button 'matche in' (und die Felder) und ein regex-Feld ausreichend?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon Orbiter » Fr Apr 26, 2013 10:15 am

Hi,
ich hab jetzt den Crawl Start um ein weiteres Feld erweitert, welches das Einfügen von Dokumenten nach pattern matching im Volltext regelt. Das müsste eigentlich das sein, was du brauchst.

Bitte gucke mal in den Expert Crawl Start, den habe ich vollständig überarbeitet und neu gestaltet in Anlehnung an alle anderen Servlets. Das neue Feld findest du im Abschnitt "Document Filter", item "Filter on Content of Document". Ok so?
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Beeinflussung des Crawl-Verhaltens

Beitragvon fliebke » Mo Mai 06, 2013 10:58 pm

Hallo Orbiter,
vielen Dank für die Erweiterung, so habe ich mir das vorgestellt.
Die Anforderung '... bestimmte allgemeine Eigenschaften ...' macht so natürlich keinen Sinn, ist halt zu allgemein.
Die mögliche Verwendung derartiger Filter wurde in den anderen Kommentaren ja schön skizziert.
fliebke
 
Beiträge: 2
Registriert: Mo Apr 15, 2013 5:15 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 2 Gäste

cron