Frage zu: "Re-crawl known URLs"

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Di Jul 01, 2008 10:59 am

Wenn ich vor dem Crawlen "Re-crawl known URLs" auf 1 day gesetzt habe: wird dann der URL nach einem Tag automatisch neu gecrawlt? Oder habe ich dann die "Erlaubnis" ihn wieder zu crawlen, ohne dass der Crawl mit "double' and not loaded or indexed again" verhindert wird?

Zusatzfrage: wie kann ich nachträglich einen Recrawl erzwingen (wenn ich z.B. aus Versehen "Re-crawl known URLs" auf 1 year gesetzt habe)? Erst den vorhandenen löschen (aber wie und wo??) und dann neu crawlen?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Low012 » Di Jul 01, 2008 12:31 pm

wsb hat geschrieben:Wenn ich vor dem Crawlen "Re-crawl known URLs" auf 1 day gesetzt habe: wird dann der URL nach einem Tag automatisch neu gecrawlt? Oder habe ich dann die "Erlaubnis" ihn wieder zu crawlen, ohne dass der Crawl mit "double' and not loaded or indexed again" verhindert wird?


Der zweite Fall ("Erlaubnis") tritt ein.

Zusatzfrage: wie kann ich nachträglich einen Recrawl erzwingen (wenn ich z.B. aus Versehen "Re-crawl known URLs" auf 1 year gesetzt habe)? Erst den vorhandenen löschen (aber wie und wo??) und dann neu crawlen?


Wenn ich mitten im Crawl bin und mir ein Fehler auffällt, gibt es die Möglichkeit, das Crawlprofil nachträglich zu ändern. Ich habe im Moment keine Möglichkeit, auf meinen Peer zuzugreifen, aber wenn ich mich richtig erinnere, müsste man das so machen können:

1. Links im Menü den Punkt wählen, wo man einen Crawl starten kann.

2. Am oberen Rand der dann erscheinenden Seite müsste der Punkt "Crawl Profiles" oder so ähnlich autauchen, den auswählen. Es sollte eine Tabelle mit in der Vergangenheit gestarteten Crawl-Aufträgen erscheinen.

3. Unter der Tabelle kann man nun ein Profil auswählen, das man bearbeiten möchte.

edit: Wenn der Crawl schon abgeschlossen ist, kann man einen neuen starten und gibt da dann einen neuen Zeitpunkt ein. Soweit ich weiß, gilt der Zeitpunkt nur für den aktuellen Crawl. Irgendwo gibt es aber eine Tabelle, worin die URLs gespeichert sind, die aus irgendwelchen Gründen als fehlerhaft markiert sind. Ich bin icht sicher, ob man die vorher löschen muss.
Zuletzt geändert von Low012 am Di Jul 01, 2008 12:34 pm, insgesamt 1-mal geändert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Di Jul 01, 2008 12:34 pm

wsb hat geschrieben:Wenn ich vor dem Crawlen "Re-crawl known URLs" auf 1 day gesetzt habe: wird dann der URL nach einem Tag automatisch neu gecrawlt?

nein, das wäre ein 'periodic re-crawl' den wir (noch) nicht haben.

wsb hat geschrieben:Oder habe ich dann die "Erlaubnis" ihn wieder zu crawlen, ohne dass der Crawl mit "double' and not loaded or indexed again" verhindert wird?

ja

wsb hat geschrieben:Zusatzfrage: wie kann ich nachträglich einen Recrawl erzwingen (wenn ich z.B. aus Versehen "Re-crawl known URLs" auf 1 year gesetzt habe)? Erst den vorhandenen löschen (aber wie und wo??) und dann neu crawlen?

nein, das ist ein Missverständnis (im Kontext mit vorangehender Frage): Ein Re-Crawl erlaubt das Laden vorangegangen bereits geladener Seiten. Die Frage eines 'aus Versehen' stellt sich erst gar nicht. Das eingegebene Intervall modifiziert lediglich den Double-Check: URLs die älter als die eingegebene Zeit sind, werden dann nicht als doppelt angesehen, jüngere schon.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Di Jul 01, 2008 4:15 pm

wsb hat geschrieben:Zusatzfrage: wie kann ich nachträglich einen Recrawl erzwingen (wenn ich z.B. aus Versehen "Re-crawl known URLs" auf 1 year gesetzt habe)? Erst den vorhandenen löschen (aber wie und wo??) und dann neu crawlen?

Orbiter hat geschrieben:nein, das ist ein Missverständnis (im Kontext mit vorangehender Frage): Ein Re-Crawl erlaubt das Laden vorangegangen bereits geladener Seiten. Die Frage eines 'aus Versehen' stellt sich erst gar nicht. Das eingegebene Intervall modifiziert lediglich den Double-Check: URLs die älter als die eingegebene Zeit sind, werden dann nicht als doppelt angesehen, jüngere schon.

Hmmm, warum weigert sich dann der Crawler folgendes zu tun:
Vor einger Zeit habe ich http://www.uni-hannover.de gecrawlt, ich weiss nicht mehr genau wann. Also setze ich "Re-crawl known URLs if older than 1 min". Aber er tut nichts, zeigt in der Crawler-Queue nur die Seite http://www.uni-hannover.de an. Sonst geschieht nichts (seit ca. 10 min - bin ich zu ungeduldig?).

Ich wollte dann ausgehend von der Website http://www.uni-hannover.de weitere Websites deutscher Unis crawlen, habe also den Crawlfilter gesetzt auf .*\.uni-.*\.de Liegt da irgendwo ein Haken, den ich nicht sehe?

Ergänzung: das Ganze spielt auf http://85.10.210.99:8082/ (Version 0.591/04954)
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Di Jul 01, 2008 7:05 pm

wsb hat geschrieben:
wsb hat geschrieben:Zusatzfrage: wie kann ich nachträglich einen Recrawl erzwingen (wenn ich z.B. aus Versehen "Re-crawl known URLs" auf 1 year gesetzt habe)? Erst den vorhandenen löschen (aber wie und wo??) und dann neu crawlen?

Orbiter hat geschrieben:nein, das ist ein Missverständnis (im Kontext mit vorangehender Frage): Ein Re-Crawl erlaubt das Laden vorangegangen bereits geladener Seiten. Die Frage eines 'aus Versehen' stellt sich erst gar nicht. Das eingegebene Intervall modifiziert lediglich den Double-Check: URLs die älter als die eingegebene Zeit sind, werden dann nicht als doppelt angesehen, jüngere schon.

Hmmm, warum weigert sich dann der Crawler folgendes zu tun:
Vor einger Zeit habe ich http://www.uni-hannover.de gecrawlt, ich weiss nicht mehr genau wann. Also setze ich "Re-crawl known URLs if older than 1 min". Aber er tut nichts, zeigt in der Crawler-Queue nur die Seite http://www.uni-hannover.de an. Sonst geschieht nichts (seit ca. 10 min - bin ich zu ungeduldig?).

Ich wollte dann ausgehend von der Website http://www.uni-hannover.de weitere Websites deutscher Unis crawlen, habe also den Crawlfilter gesetzt auf .*\.uni-.*\.de Liegt da irgendwo ein Haken, den ich nicht sehe?

Ergänzung: das Ganze spielt auf http://85.10.210.99:8082/ (Version 0.591/04954)


Wahrscheinlich liegt das Problem im Crawlfilter, ich kriege jede Menge Meldungen der Form
Code: Alles auswählen
http://www.tt.uni-hannover.de/     denied_(does_not_match_filter

Aber was ist an dem Filter bloß verkehrt?? Bin ich blind??? Habe als Crawlfilter auch probiert .*uni-.*de : gleiches Ergebnis :-(
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon liebel-lab » Di Jul 01, 2008 8:09 pm

...probiers mal mit.....(Gemütlichkeit :-) )

oder .*uni-.*.de/.*
oder .*uni-hannover.de/.*

Wir rastern gerade im sciencenet alle unis neu ab...ah wie ich sehe sind auch schon ein "paar" seiten aus hannover dabei...

Viel Spass....

Gruss aus KA

UL
liebel-lab
 
Beiträge: 175
Registriert: Sa Jan 26, 2008 7:00 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Di Jul 01, 2008 8:44 pm

liebel-lab hat geschrieben:...probiers mal mit.....(Gemütlichkeit :-) )

Tja, hab dazu noch'n Bier getrunken ...
und dieses als Crawlfilter genommen:
liebel-lab hat geschrieben:oder .*uni-.*.de/.*

... gibt fast das gleiche nicht-Ergebnis, nur die Fehlermeldung ist anders:
Code: Alles auswählen
http://www.tt.uni-hannover.de/    double_(registered_in_errors)

Vielleicht sollte ich doch lieber Holzhacken gehen ...
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon DanielR » Di Jul 01, 2008 10:44 pm

das "registered_in_errors" stammt vmtl. vom vorherigen Versuch ("does not match filter"). YaCy merkt sich, wenn Seiten nicht gecrawlt werden konnten um nicht immer wieder den selben Fehler zu machen. Diese Liste lässt sich IMHO auf der CrawSeite unter "Indexing" einsehen und löschen.
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Mi Jul 02, 2008 4:57 am

DanielR hat geschrieben:das "registered_in_errors" stammt vmtl. vom vorherigen Versuch ("does not match filter"). YaCy merkt sich, wenn Seiten nicht gecrawlt werden konnten um nicht immer wieder den selben Fehler zu machen. Diese Liste lässt sich IMHO auf der CrawSeite unter "Indexing" einsehen und löschen.

DAS war ein heisser Tip, Danke! Nun steht auf der CrawlSeite unter "Indexing" nur noch eine rot unterlegte Liste mit PDF-Dateien, z.B. sowas:
Code: Alles auswählen
http://www.uni-hannover.de/imperia/md/content/pruefungsamt/termine/184_82_semesterzeiten_sose.pdf

Weiss jmd. was das bedeutet? Wenn ich dazu auf "clear indexing queue" klicke, passiert gar nix.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Low012 » Mi Jul 02, 2008 8:14 am

wsb hat geschrieben:Nun steht auf der CrawlSeite unter "Indexing" nur noch eine rot unterlegte Liste mit PDF-Dateien, z.B. sowas:
Code: Alles auswählen
http://www.uni-hannover.de/imperia/md/content/pruefungsamt/termine/184_82_semesterzeiten_sose.pdf

Weiss jmd. was das bedeutet?


Michael meinte auf dem Linuxtag, dass das möglicherweise daran liegt, dass der Parser für PDFs abstürzen kann, ohne dass YaCy das mitbekommt, weil eventuelle Fehler innerhalb der benutzten Library abgefangen und nicht weiter gemeldet werden. YaCy geht also davon aus, dass der Parser noch arbeitet, obwohl nichts mehr passiert. Bei Flash-Dateien habe ich das auch schon beobachtet.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Mi Jul 02, 2008 10:18 am

wsb hat geschrieben:Also setze ich "Re-crawl known URLs if older than 1 min"

das kann zu Endlosschleifen führen, die weder dem Peer-Betreiber helfen noch dem Server-Admin gefallen werden. Daher habe ich das Minimum für re-crawls nun auf 1 Stunde gesetzt. (SVN 4964)

Das 1 Minute Intervall löst ja hier auch gar kein Problem: wenn die Seite nicht gecrawlt wurde, so ist sie auch nicht im Index, und damit schlägt der Double-Check auch erst gar nicht an. Das Attribut '1 minute' würde nicht zur Anwendung kommen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Mi Jul 02, 2008 12:19 pm

Orbiter hat geschrieben:
wsb hat geschrieben:Also setze ich "Re-crawl known URLs if older than 1 min"

das kann zu Endlosschleifen führen, die weder dem Peer-Betreiber helfen noch dem Server-Admin gefallen werden. Daher habe ich das Minimum für re-crawls nun auf 1 Stunde gesetzt. (SVN 4964)

Das 1 Minute Intervall löst ja hier auch gar kein Problem: wenn die Seite nicht gecrawlt wurde, so ist sie auch nicht im Index, und damit schlägt der Double-Check auch erst gar nicht an. Das Attribut '1 minute' würde nicht zur Anwendung kommen.

Vielleicht versteh ich es ja immer noch miss, aber folgende Situation:
ich habe einen Crawl gestartet, und nach ein paar Minuten fällt mir auf, da war irgendwas falsch gesetzt. Also terminiere ich diesen Crawl. Nun will ich den gleichen Crawl von der gleichen Startseite nochmal starten. Zu den Unterseiten kommt dann der Crawler aber nicht hin, weil dazwischen die Seiten liegen, die er als gecrawlt markiert hat. Also muss ich jetzt eine Stunde warten.
Ist es so?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Mi Jul 02, 2008 1:12 pm

ja. Und das muss auch so sein. Bitte folgendes Beispiel durchdenken:

Gegeben sei eine Domäne mit p Seiten. Dauert das Crawlen der p Seiten länger als t Sekunden, so wird der Crawler bei einem Re-Crawl Limit von t nicht terminieren.

Die Frage ist also, bei welchem p und t der Crawler nicht terminiert. Die Antwort liefert die PPM:
geht man beispielsweise von einem PPM von 500 aus, so ist t=60 der Fall wo der Crawler bei einer Domäne mit 500 Seiten nicht terminiert.

D.h. startest du mit einem recraw-Limit von 1 Minute, kannst du dann fast keinen sinnvollen Crawl mehr starten, weil die nie terminieren.
Die Fehlerfälle die nun durch meine Änderung abgefangen werden, sind dann Crawls über 500*60 = 30000 Seiten. Bei allen anderen gibts immer noch die Chance dass der Crawler nicht terminiert. Daher müsste man eigentlich die Stunden auch ausschliessen, da fast alle Crawls mehr als 30000 Seiten erfassen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon lulabad » Mi Jul 02, 2008 1:27 pm

Oder mal nicht so mathematisch ausgedrückt.

Du startest einen Crawl von heise.de. Auf der Startseite befindet sich ein Link zu spiegel.de. Nun Crawlt er spiegel.de.
Auf der Startseite von spiegel.de befindet sich ein Link zu heise.de. Da bereits eine Minute vergangen ist, crawlt er wieder heise.de.
Auf der Seite befindet sich natürlich wieder der Link zu spiegel.de .............
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Mi Jul 02, 2008 1:33 pm

Orbiter hat geschrieben:ja. Und das muss auch so sein. Bitte folgendes Beispiel durchdenken:
Gegeben sei eine Domäne mit p Seiten. Dauert das Crawlen der p Seiten länger als t Sekunden, so wird der Crawler bei einem Re-Crawl Limit von t nicht terminieren.

Versteh ich das richtig??: ich klicke auf "Terminieren" und der Crawler terminiert NICHT?? (wozu ist der Schalten "Terminieren" denn da?)
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Mi Jul 02, 2008 1:47 pm

von klicken habe ich nichts geschrieben. Es geht darum das der Algorithmus mit Standard-Optionen, die ich ja nun entfernt habe, nicht terminiert.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Lotus » Mi Jul 02, 2008 4:34 pm

Hmm, die Lösung dafür wäre doch ein dynamischer Recrawl-Faktor. Die derzeitige Option ist statisch und wird zum Crawlzeitpunkt gesetzt. Diese Entscheidung bedeutet, dass alles älter dem Startzeipunkt neu indexiert werden soll.
Damit das so ist muss die Zeit laufend mit der Differenz seit dem Startzeitpunkt addiert werden. Dann kann auch nach 1s ohne Probleme alles neu gecrawlt werden.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Mi Jul 02, 2008 4:51 pm

Lotus hat geschrieben:Hmm, die Lösung dafür wäre doch ein dynamischer Recrawl-Faktor. Die derzeitige Option ist statisch und wird zum Crawlzeitpunkt gesetzt. Diese Entscheidung bedeutet, dass alles älter dem Startzeipunkt neu indexiert werden soll.
Damit das so ist muss die Zeit laufend mit der Differenz seit dem Startzeitpunkt addiert werden. Dann kann auch nach 1s ohne Probleme alles neu gecrawlt werden.

GENAU SO meinte ich es - sehr schön formuliert.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Do Jul 03, 2008 9:04 am

Low012 hat geschrieben:
wsb hat geschrieben:Nun steht auf der CrawlSeite unter "Indexing" nur noch eine rot unterlegte Liste mit PDF-Dateien, z.B. sowas:
Code: Alles auswählen
http://www.uni-hannover.de/imperia/md/content/pruefungsamt/termine/184_82_semesterzeiten_sose.pdf

Weiss jmd. was das bedeutet?

Michael meinte auf dem Linuxtag, dass das möglicherweise daran liegt, dass der Parser für PDFs abstürzen kann, ohne dass YaCy das mitbekommt, weil eventuelle Fehler innerhalb der benutzten Library abgefangen und nicht weiter gemeldet werden. YaCy geht also davon aus, dass der Parser noch arbeitet, obwohl nichts mehr passiert. Bei Flash-Dateien habe ich das auch schon beobachtet.

Ja, ich habe da jetzt eine laaaange Liste von rot unterlegten PDF- und Flash-Dateien. Rechts aussen gibts auch eine Spalte "Delete" aber leider keinen Schalter, um ein Delete auszuführen.

Wie krieg ich den ganzen Müll wieder weg??
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Low012 » Do Jul 03, 2008 9:24 am

wsb hat geschrieben:Wie krieg ich den ganzen Müll wieder weg??


Ich starte in so einem Fall meinen Peer einfach neu. Das ist aber keine vernünftige Strategie für Peers, die z.B. bei Metager eingebunden sind. Kennt jemand eine bessere Möglichkeit?

Beim Flash-Parser bin ich mittlerweile nicht mehr sicher, ob man den überhaupt aktivieren sollte. Möglicherweise ist der Nutzen geringer als das Risiko, dass er Abstürzt und Müll in der Liste erzeugt.

Wenn jemand Lust hat, bei der Erstellung eines besseren Parsers zu helfen: viewtopic.php?f=9&t=1301
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Do Jul 03, 2008 9:57 am

Low012 hat geschrieben:
wsb hat geschrieben:Wie krieg ich den ganzen Müll wieder weg??

Ich starte in so einem Fall meinen Peer einfach neu. Das ist aber keine vernünftige Strategie für Peers, die z.B. bei Metager eingebunden sind.

Der Peer, um den es geht, ist momentan nicht in metager - ich könnt das also so machen. ABER dieser Peer ist mit einem Crawl beschäftigt, der sicherlich laaaange dauern wird. Wenn ich in diesem Status jetzt einfach Restart mache, macht der Crawler dann weiter, oder muss ich den von vorne neu starten lassen?
Low012 hat geschrieben:Kennt jemand eine bessere Möglichkeit?

Das wäre natürlich auch noch interessant.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Do Jul 03, 2008 10:07 am

der crawler macht nach einem Neustart natürlich dort weiter wo er beim shutdown aufgehört hat.
Ich schaue mir aber die Crawl-Leichen nochmal an und gucke was man da machen kann.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon miTreD » Do Jul 03, 2008 11:08 am

wsb hat geschrieben:ABER dieser Peer ist mit einem Crawl beschäftigt, der sicherlich laaaange dauern wird. Wenn ich in diesem Status jetzt einfach Restart mache, macht der Crawler dann weiter, oder muss ich den von vorne neu starten lassen?
Ich pausiere in so 'nem Fall immer den Crawler und warte bis der Indexer leer ist (die Leichen bleiben natürlich drin), bevor ich den Peer neu starte. Das dürfte die sicherste Variante sein.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Frage zu: "Re-crawl known URLs"

Beitragvon wsb » Do Jul 03, 2008 1:57 pm

miTreD hat geschrieben:
wsb hat geschrieben:ABER dieser Peer ist mit einem Crawl beschäftigt, der sicherlich laaaange dauern wird. Wenn ich in diesem Status jetzt einfach Restart mache, macht der Crawler dann weiter, oder muss ich den von vorne neu starten lassen?
Ich pausiere in so 'nem Fall immer den Crawler und warte bis der Indexer leer ist (die Leichen bleiben natürlich drin), bevor ich den Peer neu starte. Das dürfte die sicherste Variante sein.

Wie pausiert man denn den Crawler?? Im "Crawl Profile Editor" kann ich ihn terminieren oder deleten - wie denn pausieren? Wenn es irgendwo was gibt, wo das alles beschrieben ist, dann wär es optimal, wenn Du mir einfach den Link dahin sagst.

Ergänzung (edit): wenn wir schon mal dabei sind, noch ne Frage: immer, wenn so ein Crawl durch ist, dann erscheinen im "Crawl Profile Editor" 3 neue Crawls: snippetLocalMedia, snippetLocalText und snippetGlobalMedia. Wo kommen die her, was machen die??
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Do Jul 03, 2008 2:33 pm

das sind die Standard-Profile für die Abarbeitung der Fälle für das Snippet-Laden. Die sollten immer da sein, wenn du die löschst werden sie neu angelegt. Da kannst du beispielsweise dran einstellen das als Ergebnis eines Snippet-Ladens ein mini-Crawl mit einer neuen Tiefe dran laufen soll. Innerhalb der YaCy-Prozesse ist ein Snippet-Laden nämlich nichts anderes als ein Crawl-Start mit Tiefe 0.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon miTreD » Do Jul 03, 2008 2:47 pm

wsb hat geschrieben:Wie pausiert man denn den Crawler??
Direkt auf der Statusseite. Einfach mal bei "Local Crawl" auf das rote Viereck drücken. Sollte dann ein grünes Dreieck draus werden und "(paused) daneben stehen.
miTreD
 
Beiträge: 1241
Registriert: Mi Jun 27, 2007 11:35 am
Wohnort: /home

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Orbiter » Do Jul 03, 2008 2:49 pm

ja aber ein Shutdown sollte auch ohne Pausieren des Crawlers gehen. Die Queues werden alle gespeichert.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Frage zu: "Re-crawl known URLs"

Beitragvon Lotus » Mo Aug 25, 2008 9:35 pm

wsb hat geschrieben:
Lotus hat geschrieben:Hmm, die Lösung dafür wäre doch ein dynamischer Recrawl-Faktor. Die derzeitige Option ist statisch und wird zum Crawlzeitpunkt gesetzt. Diese Entscheidung bedeutet, dass alles älter dem Startzeipunkt neu indexiert werden soll.
Damit das so ist muss die Zeit laufend mit der Differenz seit dem Startzeitpunkt addiert werden. Dann kann auch nach 1s ohne Probleme alles neu gecrawlt werden.

GENAU SO meinte ich es - sehr schön formuliert.

Ich habe das nun so ähnlich mit gleicher Funktion in r5081 eingecheckt. Das maximale Alter wird beim Start errechnet, nicht laufend neu.
Bitte testen. Bei mir klappt's.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron