Seite 1 von 1

Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 7:23 am
von JohnBoyDoe
Guten Morgen,

ich habe hier Yacy laufen als "Suchportal für Ihre eigene Internetseiten". Ich habe Yacy meine Bookmarksammlung übergeben.
Nun läuft der Crawl bestimmt schon 72Stunden und ist immer noch nicht durch.

Wo kann ich sehen was noch ansteht? Das es vermutlich länger dauert weil es relativ viele Links waren ist schon klar. Mir geht es darum, dass ich einfach "wissen" möchte was noch "zu tun ist" .

Gibts da was?

Danke
JBD

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 9:40 am
von bluumi
Fragt sich was Du für eine Suchtiefe angegeben hast. Hoffe für Dich, diese war nicht tief (0 oder 1) wenn Du ihm viele Links gegeben hast.

Web Indexierung / Crawl Start&Kontrolle / zu verarbeitende URLs / lokal / da dürften die URLs aufgeführt sein.

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 9:49 am
von Phiber
Man kann im Adminfenster oder unter Crawling sonst auch nachgucken wieviele Links noch im Auftrag sind.

Wenns nur noch paar tausend sind handelt es sich um ein paar Stunden, je nach Anzahl und halt auch der Geschwindigkeit von deinem System und deinen Einstellungen.

Falls du natürlich deine Bookmarks mit ner hohen Tiefe durchcrawlst und dort jetzt auf einmal 700'000 Links zu bearbeiten sind, könnte es länger dauern :D

Wichtig wären aber wie gesagt ne Linkanzahl, die Crawltiefe deiner Bookmarks und grobe Angaben zum System (CPU, RAM), damit man das etwa abschätzen kann und je nachdem sollte man den Job vielleicht besser abwürgen.

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 3:35 pm
von Orbiter
wenn die crawl tiefe zu hoch war: im crawl profile editor kann man die Tiefe nachträglich ändern. Das verkleinert natürlich nicht die aktuelle queue.

Es stimmt aber das man nach der Größe der Queue ein wenig suchen muss, wenn man beispielsweise nur auf die Statusseite in die Grafiken guckt. Wie wäre eine Anzeige denn angemessen? Fortschrittsbalken?

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 3:40 pm
von JohnBoyDoe
OK.

also ich habe noch 155000 urls im lokalen crawler puffer
bei einer ausgangslist von 200 Links.
Crawltiefe ist bei 3.

Das könnte dauern. Nehm ich mal an.

Wird eigentlich die Blacklist auch noch nachträglich angewendet?

Was kann ich denn jetzt noch sinnvoll tun?

Abbrechen?
Crawltiefer veringern?
Gibt es gute Blacklists zum Download?

Jedenfalls habe ich schon ganz coole Suchergebnisse und würde es eigentlich ungern "beschneiden"

Was würdet Ihr machen?

Gruß
und danke schonmal

JBD

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 3:45 pm
von Orbiter
ich würde die crawltiefe um eins verkleinern, sonst crawlst du im Januar noch ..

fette blacklist gibts im peer kupferhammer-keller
Musst du aber ggf. anpassen. Das Ding ist einfach konsolidiert von dem was ich so finde und da können auch 'falsche' Einträge drin sein, die ich übersehen habe oder wo ich den Nutzen vielleicht anders sehe als du.

Du kannst mit den Blacklisten nachträglich ein cleaning machen, aber sie sollte auch bei der Anzeige von Ergebnissen greifen, so das du das cleanen nicht machen musst um die Wirkung zu bekommen (auch wenn die URLs dann halt trotzdem in der DB sind

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 4:39 pm
von bluumi
Orbiter hat geschrieben:fette blacklist gibts im peer kupferhammer-keller
Musst du aber ggf. anpassen.


Danke ;)
Gute "Ausgangslage" :mrgreen:
Mal sehen was ich noch so an top30 Sites in meinem Siteproxy finde

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 5:39 pm
von JohnBoyDoe
Hallo,

ja was habe ich getan:

ich habe die Crawltiefe auf 2 runtergesetzt:

General Depth 2
Specific Depth 2

Es befinden sich aber immer noch 154.433 Einträge in dem lokalen Crawler-Puffer.

Soll ich den Crawl komplet abrechen und nochmal durchlaufen lassen?
Werden dann die bisherigen Ergebnisse beibehalten oder gelöscht?

Danke schonmal für die Blacklist.

Gruß
JBD

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 6:50 pm
von Low012
JohnBoyDoe hat geschrieben:Soll ich den Crawl komplet abrechen und nochmal durchlaufen lassen?

Wäre eine Möglichkeit, dabei solltest du allerdings beachten, dass wenn du den Crawl neu startest, der Auftrag eventuell gleich wieder abgebrochen wird, weil das Crawlen der Startadresse innerhalb des Zeitraums liegt, in dem das erneute Auftreten einer Adresse ignoriert wird. Das dient dazu, Seiten nicht unnötig doppelt zu crawlen. Den Zeitraum kannst du einstellen, wenn du den Crawl startest. In der englischen Version ist das Eingabefeld mit "Re-crawl known URLs" beschriftet. Du solltest den Zeitraum nicht zu gering einstellen, um ein endloses Crawlen der immer gleichen Seiten zu vermeiden. Warte also am besten einen Tag, stelle den Zeitraum auf einen Tag ein und starte dann den Crawl erneut.

(Ich hoffe, das war jetzt nicht völlig verwirrend. ;))

Werden dann die bisherigen Ergebnisse beibehalten oder gelöscht?

Nein, alles was schon "ercrawlt" wurde, bleibt auch im Index, es wird lediglich der Crawlauftrag gelöscht, was zur Folge hat, dass beim Abarbeiten der Queue diejenigen Seiten, die zu diesem Auftrag gehört haben, nicht berücksichtigt und verworfen werden. Wenn du dir die Log-Datei (DATA/LOG/yacy00.log) ansiehst, wirst du das dort schön an den Einträgen mit "LOST PROFILE HANDLE" erkennen können.

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Mi Okt 08, 2008 10:10 pm
von DanielR
JohnBoyDoe hat geschrieben:Was würdet Ihr machen?

Abwarten und weiter crawlen lassen :)

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Do Okt 09, 2008 10:14 am
von JohnBoyDoe
Naja 150000 Url waren mir zuviel. Weil der Rechner auch sehr lahm wird. Ttrotz Speicherzuweisung 300MB bei 2GB Ram und 60 ppm.

Ich habs jetzt reduziert auf zwei Crawl Ebenen.
Habe noch meine Blacklist erweitert.
Den Crawl mit nur Seiten crawlen die älter als 1 Woche sind, damit er nicht alles nochmal crawlt.

Nun habe ich noch 4000 von 10000 Pages zum Bearbeiten über und da bin ich wohl morgen mit durch.

Danke für die Tipps, man ist echt schneller bei der Lösung mit Hilfe ausm Forum.

Gruß
JBD

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Do Okt 09, 2008 2:44 pm
von Lotus
Low012 hat geschrieben:In der englischen Version ist das Eingabefeld mit "Re-crawl known URLs" beschriftet. Du solltest den Zeitraum nicht zu gering einstellen, um ein endloses Crawlen der immer gleichen Seiten zu vermeiden.

Da muss mittlerweile nichts mehr beachtet werden. :)

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Do Okt 09, 2008 4:05 pm
von Orbiter
wieso?

Re: Wann ist Yacy fertig mit dem crawl

BeitragVerfasst: Do Okt 09, 2008 5:38 pm
von Lotus
Habt ihr wohl gar nicht gemerkt. ;)
Das habe ich umgebaut. Die Zeiten werden nun absolut gewertet (aufpassen: GMT (=keine Sommerzeit)).
r5081-5083