Alle Crawls lediglich auf eine bestimmte Domäne beschränken

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Alle Crawls lediglich auf eine bestimmte Domäne beschränken

Beitragvon mbehrens » Fr Jun 07, 2013 2:12 pm

Was ist eigenglich die beste/empfohlene Methode, um sicherzustellen, dass bei allen Crawls, die gestartet werden, nur Dokumente aus einer bestimmten Domäne erschlossen werden?

Ich weiß, das man jeweils 'Lade nur Dateien in einem Unterpfad der angegebenen URL' oder 'Lade alle Dateien in der Domäne' ankreuzen kann (und muss), aber wir administrieren unsere YaCy mit mehreren Leuten, und es kommt leider immer mal wieder vor, dass jemand diese Einstellung vergisst und dann ein Haufen Dokumente aus ungewollten Domains indiziert werden.

Kann man irgendwie sicherstellen, dass der gesamte Index nur Dokumente aus einer oder mehreren, aber wenigen Domänen enthält?

Vielen Dank im Voraus für Hinweise und Tipps!

MFG; M. Behrens
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon Orbiter » Fr Jun 07, 2013 3:20 pm

also sowas wie eine globale whitelist?
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon mbehrens » Mo Jun 10, 2013 8:10 am

Hallo,

ja genau: sowas wie eine globale Whitelist. Das wär's.

Bei uns taucht leider immer wieder das Problem auf, dass der Crawler aus irgendwelchen Gründen anfängt, quasi 'das gesamte Web' abzugrasen (was wir definitiv nicht wollen).

Wir haben zur Zeit eine ganze Reihe verschiedener Crawls eingetrgen (auf CrawlProfileEditor_p.html), die aber alle - eigentlich - jeweils nur eine bestimmte Subdomain 'einsammeln' sollen.
Das funktioniert leider nur leidlich. Ich habe schon überlegt, ob ich sie mal alle lösche und stattdessen mit einem einzigen HTML-Dokument als Crawl-Start arbeite, aber eine 'globale Whitelist' würde das Problem sicher auch lösen.
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon Orbiter » Mo Jun 10, 2013 11:40 am

mbehrens hat geschrieben:Bei uns taucht leider immer wieder das Problem auf, dass der Crawler aus irgendwelchen Gründen anfängt, quasi 'das gesamte Web' abzugrasen (was wir definitiv nicht wollen).

die Crawl-regex habe ich jetzt schon öfters kontrolliert und glaube dass sie nichts unerwünschtes durchlassen. Ich müsste mir da mal ein konkretes Beispiel angucken.

mbehrens hat geschrieben:Ich habe schon überlegt, ob ich sie mal alle lösche und stattdessen mit einem einzigen HTML-Dokument als Crawl-Start arbeite, aber eine 'globale Whitelist' würde das Problem sicher auch lösen.

ich weiss, die GSA arbeitet so. Da gibts eine Liste mit Startpunkt-URLs und eine große Regex-Liste. Man kann das in YaCy so ähnlich machen, es ist möglich mehrere URLs als Startpunkt anzugeben und die 'große regex-Liste' kann man durch eine geeignete Disjunktion der Einzel-regexe realisieren.

In diesem Sinne ist YaCy aber wesentlich flexibler als die GSA, weil man eben diese eine große Liste in einzelne Crawls unterteilen kann und denen auch noch automatische Durchführungszyklem im Process Steering zuordnen kann. Die GSA macht das ja nur 'wenn sie denkt das es an der Zeit ist', so weit ich weiss, kann man das nicht beeinflussen.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon mbehrens » Mo Jun 10, 2013 12:23 pm

>> In diesem Sinne ist YaCy aber wesentlich flexibler als die GSA, weil man eben diese eine große Liste in einzelne Crawls unterteilen kann und denen auch noch automatische Durchführungszyklem im Process Steering zuordnen kann. Die GSA macht das ja nur 'wenn sie denkt das es an der Zeit ist', so weit ich weiss, kann man das nicht beeinflussen.

Stimmt schon, und damit sind wir auch sehr zufrieden.

Allerdings bringt dies auch eigene Schwierigkeiten mit sich - weil man, soweit ich es bisher prüfen konnte, die auf CrawlProfileEditor_p.html gelisteten Crawls nicht mehr im Detail prüfen oder verändern kann, wenn sich herausstellt, dass etwas schiefgeht. Ich melde mich diesbezüglich aber nochmal.

Die Möglichkeit einer globalen Whitelist gibt es also nicht, auch nicht als eine Konfigurationsdatei irgendwo im Hintergrund?
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon Orbiter » Mo Jun 10, 2013 4:56 pm

mbehrens hat geschrieben:die auf CrawlProfileEditor_p.html gelisteten Crawls nicht mehr im Detail prüfen oder verändern kann, wenn sich herausstellt, dass etwas schiefgeht.

Die dort gelisteten Crawls sind dort nur in der 'Kurzansicht'. Die gleiche Liste befindet sich in /Table_API_p.html und dort auch mit dem kompletten POST-Argument hinten dran. Einen Editor gibts dort aber auch nicht. Man kann zwar diese Einträge schon bearbeiten, aber dann in /Tables_p.html?table=api unter 'edit selected row'. Das ist aber nicht sehr komfortabel. Ich könnte immerhin das 'URL'-Feld größer machen damit man mehr sieht. Aber das wäre auch nur ein workaround.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon mbehrens » Di Jun 11, 2013 8:12 am

Danke für den Hinweis.
Werde als Nächstes mal versuchen, unsere Bedürfnisse über einen einzigen Crawl zu lösen, der von einem HTML-Dokument mit allen relevanten Links für eine Domäne aus startet...
mbehrens
 
Beiträge: 25
Registriert: Fr Dez 09, 2011 1:09 pm

Re: Alle Crawls lediglich auf eine bestimmte Domäne beschrän

Beitragvon Orbiter » Di Jun 11, 2013 10:22 am

bei der Verwaltungssuchmaschine NRW (auch YaCy) wird das tatsächlich auch so gemacht, allerdings machen die intensiven Gebrauch von den collections, um Kommunen je in eine Collection zu legen. Das sind tausende von Crawl Starts mit jeweils mehreren Startpunkten (teilweise duzende) und je großen Filterlisten. Für die hatte ich extra gecheckt, dass sehr große Filter-regexe möglich sind.
Orbiter
 
Beiträge: 5797
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast