Index und Collections

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Index und Collections

Beitragvon freak » Do Okt 10, 2013 11:12 pm

Hallo zusammen :)

Ich hatte angefangen mir mit Hilfe von yacy zum Test einen Index zu einem bestimmten Thema zu erstellen. Bei meinen Crawlversuchen hatte ich die zu indizierenden Seiten keiner collection zugeordnet. Jetzt wo ich schon mehr als 60K Dokumente im index habe, finde ich gefallen an der Möglichkeit Seiten in verschiedene Collections zu verteilen, um gezieltere Suchen zu ermöglichen.

Meine Frage dazu: Wenn ich einen Crawl aufrufe und jetzt den collection Parameter setze, werden da alle Dokumente der Domain erneut gecrawlt, weil nicht in der Collection vorhanden oder werden die bereits im Index existierenden Dokumente enfach nur der angegebenen collection zugewiesen?

Hier noch als Beispiel die URL, wie ich bisher einen crawl initiiert habe und wie ich das ab jetzt gerne machen würde:

bisher:
Code: Alles auswählen
http://localhost:31999/Crawler_p.html?reloadIfOlderNumber=&crawlingDomMaxPages=1000&deleteold=off&intention=&range=domain&indexMedia=off&recrawl=nodoubles&storeHTCache=on&sitemapURL=&collection=&crawlingQ=on&cachePolicy=iffresh&crawlingMode=url&indexText=on&crawlingURL=http://www.domain.de&crawlingDomFilterDepth=1&mustnotmatch=&bookmarkTitle=http://www.domain.de&crawlingDomFilterCheck=off&reloadIfOlderUnit=day&directDocByURL=off&crawlingstart=Starte%20neuen%20Crawl&crawlingDepth=5&crawlingDomMaxCheck=500


zukünftig:
Code: Alles auswählen
http://localhost:31999/Crawler_p.html?reloadIfOlderNumber=&crawlingDomMaxPages=1000&deleteold=off&intention=&range=domain&indexMedia=off&recrawl=nodoubles&storeHTCache=on&sitemapURL=&collection=mycollection&crawlingQ=on&cachePolicy=iffresh&crawlingMode=url&indexText=on&crawlingURL=http://www.domain.de&crawlingDomFilterDepth=1&mustnotmatch=&bookmarkTitle=http://www.domain.de&crawlingDomFilterCheck=off&reloadIfOlderUnit=day&directDocByURL=off&crawlingstart=Starte%20neuen%20Crawl&crawlingDepth=5&crawlingDomMaxCheck=500


Der einzige Unterschied ist der collection Parameter.

Grüße
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm

Re: Index und Collections

Beitragvon Orbiter » Fr Okt 11, 2013 8:20 am

ein nachträgliches Zuweisen oder Ändern der Collection gibts nicht. 60k Dokumente sind aber schnell neu indexiert, hierzu gibts auch ein neues Mittel: Crawl Clones!
Seit dieser Woche ist im Process Scheduler ein 'Clone' Button an jedem Crawl, da kann man dann so ein Crawl wieder-editieren und die entsprechenden Parameter ändern. Ich empfehle hier auch noch den Flag 'from cache' zu setzten, dann werden die Dokumente komplett aus dem Webcache genommen und der Crawl sollte schnell durch sein.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Index und Collections

Beitragvon freak » Fr Okt 11, 2013 11:19 pm

Halo Orbiter

Danke für die Info. Ich hol mir die Dokumente einfach nochmal und sortier die gleich in eine Collection. :)
freak
 
Beiträge: 21
Registriert: Do Okt 10, 2013 10:59 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron