Crawling: Herausfiltern von Textphrasen

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawling: Herausfiltern von Textphrasen

Beitragvon LA_FORGE » So Dez 07, 2008 4:38 pm

Hallo,

gibt es eine Möglichkeit eine Textphrase herauszufiltern, sodass sie nicht gecrawlt/indexiert wird?

Ich habe die Phrase "Soccer Photo Collections" und will verhindern dass die erneut im Index landet, da ich festgestellt habe, dass für diese "Soccer Photo Collection" schon mehrfach redundante Einträge in meinem Index vorhanden sind.

Vielen Dank für die Hilfe und viele Grüße

Stefan
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawling: Herausfiltern von Textphrasen

Beitragvon Orbiter » Mo Dez 08, 2008 3:13 pm

das wäre sowas wie eine temporäre/Crawl-bezogene stopword-Liste. Haben wir leider noch nicht. Das wäre was für einen Gelegenheitshacker, einfach angucken wie die Stopwords gehen, und ein zusätzliches Feld in den Crawl Profile aufnehmen, und einen Flag.
Orbiter
 
Beiträge: 5793
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawling: Herausfiltern von Textphrasen

Beitragvon LA_FORGE » Mo Dez 08, 2008 10:58 pm

Vielen Dank.

Ich habe jetzt erstmal die Blacklist gefüttert und dann

URL-DB-Cleaner

Code: Alles auswählen
ThreadAlive: true
ThreadToString: Thread[Thread-207,10,sessionThreadGroup]
Total URLs searched: 270 (0%)
Blacklisted URLs found: 4
Percentage blacklisted: 1.48%
last searched URL: http://konferenciakalauz.hu/cimkek/oktat%C3%A1s (AACSmbcIdorD)
last blacklisted URL found: http://www.ibiblio.org/footy/2004/2006g/2005j/2005j/2006i/1125_unc_tam_ajm.php (AABob7w6mYdQ)


den URL-DB-Cleaner drüberlaufen lassen. Weil an dieser doofen Soccer Photo Collection frisst sich mein Crawler immer fest.
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawling: Herausfiltern von Textphrasen

Beitragvon LA_FORGE » Di Dez 09, 2008 7:04 pm

Aktueller Stand:

Code: Alles auswählen
ThreadAlive: true
ThreadToString: Thread[Thread-207,10,sessionThreadGroup]
Total URLs searched: 1,515,317 (7.71%)
Blacklisted URLs found: 45,825
Percentage blacklisted: 3.02%
last searched URL: http://www.fischer-zim.ch/streiflicht/APDRG-LEP-USZ-0109.htm (EVPfRw_qoNFB)
last blacklisted URL found: http://www.ibiblio.org/footy/footy/2006f/2005j/2006g/2006j/1202_unc_nd_ajm.php (EVO2l7w6mYdQ)


Total krank, über 40.000 URLs von dieser Fußballbilder-Kollektion und der ist erst bei 7,7 %
Es kann doch nicht sein dass die ganze ibiblio.org nur aus Fußballbildern besteht!
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Crawling: Herausfiltern von Textphrasen

Beitragvon LA_FORGE » Mi Dez 10, 2008 10:02 pm

Mittlerweile sind es über 100.000 gefilterte URLs nur von dieser Fußballbilder-Kollektion :D
LA_FORGE
 
Beiträge: 559
Registriert: Sa Okt 11, 2008 5:24 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron