rasut 6 - Webseiten scrawlen nach bestimmten Schlagworten

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

rasut 6 - Webseiten scrawlen nach bestimmten Schlagworten

Beitragvon ramfresser » Sa Okt 04, 2014 11:01 pm

Hallo

Noch mal möchte ich kurz darauf hinweisen, das meine Fragen nicht immer gleich als Problem angesehen werden sollten, denn es sind in 99% aller Fälle einfach nur Fragen zu Funktionen der yacy Software.

Ich möchte eine themenspezifische Suchmashine aufbauen und frage mich nun, wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden und wenn kein Schlagworten vorhanden ist, die Seite ignorieren oder in ein paar Wochen erneut durch suchen oder so.

Aber wie bekomme ich das hin?

Hat das mit den Vokabellisten zu tun?

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon flegno » Mo Okt 06, 2014 11:03 am

Hallo,

für mich klingt es nach einer 'Agenten'-Funktion - mehr s. http://pro.yacy.net/de/index.html . Ich meine aber, dass die Voraussetzung für die 'Agenten'-Funktion ist, dass erst ein YaCy-Index erstellt bzw. regelmäßig aktualisiert wird - auf deinem oder einem anderen Peer im YaCy-Netzwerk.

Gruss, flegno
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon ramfresser » Mo Okt 06, 2014 11:30 pm

Hallo

Agentenfunktion? Ich möchte zu einen speziellen Thema eine Suchmaschine etablieren und nicht spionieren.

Also ist es nun aus reiner softwaretechnischer Sicht möglich, das yacy Seiten nach bestimmten Schlagworten durch sucht oder nicht?

Wenn ja wie?
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon flegno » Di Okt 07, 2014 5:26 am

ramfresser hat geschrieben:Ich möchte zu einen speziellen Thema eine Suchmaschine etablieren und nicht spionieren.
Also im Suchmaschinen-Geschäft hat die Bezeichnung "Agent" keine negative Bedeutung, sondern nach meinem Verstandnis wird der "Agent"-Begriff dann verwendet, wenn die Software, der "Agent" im Lausch-Modus die Daten bzw. ein Netzwerk nach einem bestimmten Ereignis überwacht.
ramfresser hat geschrieben: wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden
Das Vorkommen eines Schlagwortes im Text könnte so ein Ereignis sein. Auf einem Immobilien-Portal könnte dieses Ereignis "Eine Wohnung zwischen 60 und 65 m2 gross wird in der Stadt XYZ zum Preis unter NN Euro angeboten" sein.

ramfresser hat geschrieben:Also ist es nun aus reiner softwaretechnischer Sicht möglich, das yacy Seiten nach bestimmten Schlagworten durch sucht oder nicht?

Wenn ja wie?
Obwohl ich selbst keine einzige Zeile Programmcode für das YaCy-Projekt geliefert habe, behaupte ich, dass es relativ einfach ist, auf der Eintwicklerseite die gewünschte Funktionalität zu realisieren. Es geht nach meinem Verständnis lediglich darum, die vorhandene Funktionalität "Website oder Webseite crawlen" entweder aktivieren oder auch nicht, ie nachdem, ob ein bestimmtes Ereignis bspw. "Schlagwort vorhanden" eingetreten ist.

Mir ist aber nicht klar, ob du hier
ramfresser hat geschrieben: wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden
"Website oder Webseite" meinst?

Gruss, flegno
Zuletzt geändert von flegno am Fr Nov 14, 2014 9:21 am, insgesamt 1-mal geändert.
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon ramfresser » Di Okt 07, 2014 8:07 am

Guten Morgen

flegno hat geschrieben:
ramfresser hat geschrieben:Mir ist aber nicht klar, ob du hier
ramfresser hat geschrieben: wie kann ich yacy dazu bringen, Webseiten nach bestimmten Schlagworten zu durch suchen. Sollte ein Schlagwort vorhanden sein, dann soll die Seite indexiert werden
"Website oder Webseite" meinst?

Gruss, flegno


Ob nun englisch Website oder deutsch Webseite ist für mich das gleiche.

flegno hat geschrieben:
ramfresser hat geschrieben:Also ist es nun aus reiner softwaretechnischer Sicht möglich, das yacy Seiten nach bestimmten Schlagworten durch sucht oder nicht?

Wenn ja wie?

Obwohl ich selbst keine einzige Zeile Programmcode für das YaCy-Projekt geliefert habe, behaupte ich, dass es relativ einfach ist, auf der Eintwicklerseite die gewünschte Funktionalität zu realisieren. Es geht nach meinem Verständnis lediglich darum, die vorhandene Funktionalität "Website oder Webseite crawlen" entweder aktivieren oder auch nicht, ie nachdem, ob ein bestimmtes Ereignis bspw. "Schlagwort vorhanden" eingetreten ist.


Erkläre bitte wie ich das machen muss an einen Beispiel, damit ich die Technik dahinter auch verstehe.

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon Orbiter » Di Okt 07, 2014 8:16 am

Die Funktion ist schon da!
Bitte im Expert Crawl Start unter dem Abschnitt "Document Filter" den regulären Ausdruck für "Filter on Content of Document" benutzen.

Beispiel:
Wenn du nur ein Wort "wort" filtern willst, dann ist der Ausdruck dort ".*wort.*". Wenn es zwei Wörter "wort1" und "wort2" sind, dann ist der reguläre Ausdruck ".*wort1.*|.*wort2.*". Reguläre Ausdrücke kannst du zur Vorbereitung eines geeigneten Filters unter /RegexTest.html testen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon flegno » Di Okt 07, 2014 8:23 am

Hallo,
ramfresser hat geschrieben:Ob nun englisch Website oder deutsch Webseite ist für mich das gleiche.

Beim Eigengebrauch ist es kein Problem, welche Bezeichner/Begriffe man verwendet. Bei deiner Frage in diesem Thread ist mein Vorschlag sich an die Definitionen von Wikipedia de.wikipedia.org für Website und Webseite zu halten, sonst hat man schlechte Chancen, eine zielführende Kommunikation zu führen.

gruss, flegno
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: rasut 6 - Webseiten scrawlen nach bestimmten Schlagworte

Beitragvon ramfresser » Di Okt 07, 2014 12:25 pm

Hallo

Orbiter hat geschrieben:Die Funktion ist schon da!
Bitte im Expert Crawl Start unter dem Abschnitt "Document Filter" den regulären Ausdruck für "Filter on Content of Document" benutzen.

Beispiel:
Wenn du nur ein Wort "wort" filtern willst, dann ist der Ausdruck dort ".*wort.*". Wenn es zwei Wörter "wort1" und "wort2" sind, dann ist der reguläre Ausdruck ".*wort1.*|.*wort2.*". Reguläre Ausdrücke kannst du zur Vorbereitung eines geeigneten Filters unter /RegexTest.html testen.


Danke das habe ich nun verstanden.

LG Patrick alias ramfresser
ramfresser
 
Beiträge: 28
Registriert: Di Sep 23, 2014 3:57 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste