Wann ist Yacy fertig mit dem crawl

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Wann ist Yacy fertig mit dem crawl

Beitragvon JohnBoyDoe » Mi Okt 08, 2008 7:23 am

Guten Morgen,

ich habe hier Yacy laufen als "Suchportal für Ihre eigene Internetseiten". Ich habe Yacy meine Bookmarksammlung übergeben.
Nun läuft der Crawl bestimmt schon 72Stunden und ist immer noch nicht durch.

Wo kann ich sehen was noch ansteht? Das es vermutlich länger dauert weil es relativ viele Links waren ist schon klar. Mir geht es darum, dass ich einfach "wissen" möchte was noch "zu tun ist" .

Gibts da was?

Danke
JBD
JohnBoyDoe
 
Beiträge: 4
Registriert: Mi Okt 08, 2008 7:18 am

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon bluumi » Mi Okt 08, 2008 9:40 am

Fragt sich was Du für eine Suchtiefe angegeben hast. Hoffe für Dich, diese war nicht tief (0 oder 1) wenn Du ihm viele Links gegeben hast.

Web Indexierung / Crawl Start&Kontrolle / zu verarbeitende URLs / lokal / da dürften die URLs aufgeführt sein.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Phiber » Mi Okt 08, 2008 9:49 am

Man kann im Adminfenster oder unter Crawling sonst auch nachgucken wieviele Links noch im Auftrag sind.

Wenns nur noch paar tausend sind handelt es sich um ein paar Stunden, je nach Anzahl und halt auch der Geschwindigkeit von deinem System und deinen Einstellungen.

Falls du natürlich deine Bookmarks mit ner hohen Tiefe durchcrawlst und dort jetzt auf einmal 700'000 Links zu bearbeiten sind, könnte es länger dauern :D

Wichtig wären aber wie gesagt ne Linkanzahl, die Crawltiefe deiner Bookmarks und grobe Angaben zum System (CPU, RAM), damit man das etwa abschätzen kann und je nachdem sollte man den Job vielleicht besser abwürgen.
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Orbiter » Mi Okt 08, 2008 3:35 pm

wenn die crawl tiefe zu hoch war: im crawl profile editor kann man die Tiefe nachträglich ändern. Das verkleinert natürlich nicht die aktuelle queue.

Es stimmt aber das man nach der Größe der Queue ein wenig suchen muss, wenn man beispielsweise nur auf die Statusseite in die Grafiken guckt. Wie wäre eine Anzeige denn angemessen? Fortschrittsbalken?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon JohnBoyDoe » Mi Okt 08, 2008 3:40 pm

OK.

also ich habe noch 155000 urls im lokalen crawler puffer
bei einer ausgangslist von 200 Links.
Crawltiefe ist bei 3.

Das könnte dauern. Nehm ich mal an.

Wird eigentlich die Blacklist auch noch nachträglich angewendet?

Was kann ich denn jetzt noch sinnvoll tun?

Abbrechen?
Crawltiefer veringern?
Gibt es gute Blacklists zum Download?

Jedenfalls habe ich schon ganz coole Suchergebnisse und würde es eigentlich ungern "beschneiden"

Was würdet Ihr machen?

Gruß
und danke schonmal

JBD
JohnBoyDoe
 
Beiträge: 4
Registriert: Mi Okt 08, 2008 7:18 am

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Orbiter » Mi Okt 08, 2008 3:45 pm

ich würde die crawltiefe um eins verkleinern, sonst crawlst du im Januar noch ..

fette blacklist gibts im peer kupferhammer-keller
Musst du aber ggf. anpassen. Das Ding ist einfach konsolidiert von dem was ich so finde und da können auch 'falsche' Einträge drin sein, die ich übersehen habe oder wo ich den Nutzen vielleicht anders sehe als du.

Du kannst mit den Blacklisten nachträglich ein cleaning machen, aber sie sollte auch bei der Anzeige von Ergebnissen greifen, so das du das cleanen nicht machen musst um die Wirkung zu bekommen (auch wenn die URLs dann halt trotzdem in der DB sind
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon bluumi » Mi Okt 08, 2008 4:39 pm

Orbiter hat geschrieben:fette blacklist gibts im peer kupferhammer-keller
Musst du aber ggf. anpassen.


Danke ;)
Gute "Ausgangslage" :mrgreen:
Mal sehen was ich noch so an top30 Sites in meinem Siteproxy finde
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon JohnBoyDoe » Mi Okt 08, 2008 5:39 pm

Hallo,

ja was habe ich getan:

ich habe die Crawltiefe auf 2 runtergesetzt:

General Depth 2
Specific Depth 2

Es befinden sich aber immer noch 154.433 Einträge in dem lokalen Crawler-Puffer.

Soll ich den Crawl komplet abrechen und nochmal durchlaufen lassen?
Werden dann die bisherigen Ergebnisse beibehalten oder gelöscht?

Danke schonmal für die Blacklist.

Gruß
JBD
JohnBoyDoe
 
Beiträge: 4
Registriert: Mi Okt 08, 2008 7:18 am

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Low012 » Mi Okt 08, 2008 6:50 pm

JohnBoyDoe hat geschrieben:Soll ich den Crawl komplet abrechen und nochmal durchlaufen lassen?

Wäre eine Möglichkeit, dabei solltest du allerdings beachten, dass wenn du den Crawl neu startest, der Auftrag eventuell gleich wieder abgebrochen wird, weil das Crawlen der Startadresse innerhalb des Zeitraums liegt, in dem das erneute Auftreten einer Adresse ignoriert wird. Das dient dazu, Seiten nicht unnötig doppelt zu crawlen. Den Zeitraum kannst du einstellen, wenn du den Crawl startest. In der englischen Version ist das Eingabefeld mit "Re-crawl known URLs" beschriftet. Du solltest den Zeitraum nicht zu gering einstellen, um ein endloses Crawlen der immer gleichen Seiten zu vermeiden. Warte also am besten einen Tag, stelle den Zeitraum auf einen Tag ein und starte dann den Crawl erneut.

(Ich hoffe, das war jetzt nicht völlig verwirrend. ;))

Werden dann die bisherigen Ergebnisse beibehalten oder gelöscht?

Nein, alles was schon "ercrawlt" wurde, bleibt auch im Index, es wird lediglich der Crawlauftrag gelöscht, was zur Folge hat, dass beim Abarbeiten der Queue diejenigen Seiten, die zu diesem Auftrag gehört haben, nicht berücksichtigt und verworfen werden. Wenn du dir die Log-Datei (DATA/LOG/yacy00.log) ansiehst, wirst du das dort schön an den Einträgen mit "LOST PROFILE HANDLE" erkennen können.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon DanielR » Mi Okt 08, 2008 10:10 pm

JohnBoyDoe hat geschrieben:Was würdet Ihr machen?

Abwarten und weiter crawlen lassen :)
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon JohnBoyDoe » Do Okt 09, 2008 10:14 am

Naja 150000 Url waren mir zuviel. Weil der Rechner auch sehr lahm wird. Ttrotz Speicherzuweisung 300MB bei 2GB Ram und 60 ppm.

Ich habs jetzt reduziert auf zwei Crawl Ebenen.
Habe noch meine Blacklist erweitert.
Den Crawl mit nur Seiten crawlen die älter als 1 Woche sind, damit er nicht alles nochmal crawlt.

Nun habe ich noch 4000 von 10000 Pages zum Bearbeiten über und da bin ich wohl morgen mit durch.

Danke für die Tipps, man ist echt schneller bei der Lösung mit Hilfe ausm Forum.

Gruß
JBD
JohnBoyDoe
 
Beiträge: 4
Registriert: Mi Okt 08, 2008 7:18 am

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Lotus » Do Okt 09, 2008 2:44 pm

Low012 hat geschrieben:In der englischen Version ist das Eingabefeld mit "Re-crawl known URLs" beschriftet. Du solltest den Zeitraum nicht zu gering einstellen, um ein endloses Crawlen der immer gleichen Seiten zu vermeiden.

Da muss mittlerweile nichts mehr beachtet werden. :)
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Orbiter » Do Okt 09, 2008 4:05 pm

wieso?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wann ist Yacy fertig mit dem crawl

Beitragvon Lotus » Do Okt 09, 2008 5:38 pm

Habt ihr wohl gar nicht gemerkt. ;)
Das habe ich umgebaut. Die Zeiten werden nun absolut gewertet (aufpassen: GMT (=keine Sommerzeit)).
r5081-5083
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste