YACY indiziert, aber Zahl der Dokumente konstant

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » So Dez 29, 2013 2:48 pm

Hallo,

Meine Peers indizieren fleißig. Nach mehreren Stunden aber steigt die Zahl der "Documents" (im Statusfenster und auf dem Statistics-Server) nicht mehr an. Sie bleibt absolut konstant, obwohl die Indizierung genau so flott weiter läuft, wie vorher auch. Nach einem Neustart ist dann alles, wie gewohnt: Anstieg der Zahl der Dokumente bis dann aber wieder nach paar Stunden alles konstant bleibt. Die Zeit bis dahin scheint nicht reproduzierbar. Wenige Stunden oder mehr als ein Tag.

Ist das ein Bug oder muss das so sein? Macht es Sinn, regelmäßig neu zu starten?

(Es laufen die development-Versionen der letzten Tage. Also alles recht aktuell.)

Viele Grüße!
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Mo Dez 30, 2013 2:17 am

Hab's mir jetzt beim Blick ins Log wahrscheinlich beantworten können: robots.txt auf der zu indizierenden Website hat das Indizieren offenbar nicht gewollt.

Wenn dem so ist würde das bedeuten, dass YACY trotzdem die Seiten alle abruft, aber sie dann eben nicht indiziert.

Und es würde bedeuten, dass im Terminal "LOCALINDEXING:..." angezeigt wird, obwohl die Seite nur abgerufen aber nicht indiziert wird.
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon David » Mo Dez 30, 2013 11:23 pm

Wenn man einen Crawl startet sollten eigentlich die Seiten entweder unter:

Creation Monitor / Local Crawling
http://localhost:8090/CrawlResults.html?process=5

oder unter:

Creation Monitor / Rejected URLs
http://localhost:8090/IndexCreateParserErrors_p.html

...laufend aufgelistet werden.

Mit Hilfe des Host Browsers kann man ebenfalls rausfinden, ob eine Seite erfolgreich indexiert wurde:
http://localhost:8090/HostBrowser.html?hosts=
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Di Dez 31, 2013 12:00 am

Danke, David!

Hab gerade mal Deine Vorschläge durchgesehen. Habe ich auch schon mal angeklickt. Es gibt so viele Statusseiten... Nur ist mir nie vollständig klar, wann welche Informationen erstellt werden und welche Bedeutung sie in welchen inhaltlichen Beziehung haben. Sind z.B. crawled Pages auch schon indiziert oder nur irgendwo im Speicher zwischengespeichert? Wenn robots.txt das indizieren "nicht mag", lädt dann YACY trotzdem die Seiten um neue URLs zu finden? Oder ist da Schluss in dieser Verzweigung?

Rejected URLs ist klar.

Host Browser scheint alles anzuzeigen, was im Index ist. Egal ob über eigenen Crawls oder von anderen Peers an meinen Peer übertragen.

Alles ziemlich diffus. Gerade hab ich lauter Proxy-Index-Zeilen im Terminal. Obwohl ich den Peer gar nicht als http-Proxy für meine Browser benutze. Was soll mir nun das wieder sagen?? Leiten andere Peers ihr Proxy-Crawlings weiter? Das sind teilweise recht kryptische Links! Brauch ich jetzt ne Rechtsschutzversicherung?

Viele Grüße
Frank
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Di Dez 31, 2013 12:53 am

Problem weiter untersucht:

Hab jetzt vor allem die Seite: /IndexCreateParserErrors_p.html beobachtet. Folgende Meldung erscheint:

FINAL_PROCESS_CONTEXT denied by document-attached noindexing rule

Im Wiki, wie im Forum von gimpforum.de kommen diese Fehlermeldungen. Hatte eigentlich gehofft, Gimp-Webseiten und Foren global indizieren zu können. Das wichtigste Forum will das aber nicht.

Die Option "obeyHtmlRobotsNoindex" in yacy.conf ist übrigens auf false gesetzt. Aber das reicht offenbar in dem Fall nicht.

Jetzt habe ich mehr als 2 Mio URLs in der Queue, lade die Seiten nacheinander alle runter, erzeuge Traffic aber keinen Index. Sehr effektiv!
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Di Dez 31, 2013 12:57 am

Das Gleiche bei meinem Hetzner-Server. Dort ist es wikibooks, was nicht indiziert werden will. So langsam wird mir klar, dass nicht immer Google Schuld hat, wenn man bestimmte Inhalte nicht findet.
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Di Dez 31, 2013 1:02 am

Beim DSLR-Forum das Gleiche.
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Di Dez 31, 2013 1:38 am

... Grad gesehen, dass das bei machen Seiten in den Foren auch Sinn macht.

Ok. Beschwere ich mich mal nicht mehr. ;)
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon David » Di Dez 31, 2013 5:05 pm

fherb hat geschrieben:Sind z.B. crawled Pages auch schon indiziert oder nur irgendwo im Speicher zwischengespeichert?

"Crawled" bedeutet ja indiziert/indexiert, zumindest im Zusammenhang mit Suchmaschinen. Nachdem eine Seite indexiert wurde, wird danach mit den Daten noch eine Nachbearbeitung (Postprocessing) gemacht, und erfahrungsgemäss kann das manchmal etwas dauern. Im "Creation Monitor" kann man unter "Postprocessing Progress" nachschauen, ob noch Seiten in der Warteschlange für diese Nachbearbeitung sind. http://localhost:8090/Crawler_p.html

fherb hat geschrieben:Wenn robots.txt das indizieren "nicht mag", lädt dann YACY trotzdem die Seiten um neue URLs zu finden? Oder ist da Schluss in dieser Verzweigung?

Soweit ich weiss ist bei einem Crawl die robots.txt immer die erste Datei die geladen wird, und wenn die Seite (vom Yacy-Bot) nicht indexiert werden will, ist es auch die letzte Datei.

fherb hat geschrieben:Gerade hab ich lauter Proxy-Index-Zeilen im Terminal. Obwohl ich den Peer gar nicht als http-Proxy für meine Browser benutze.

Vielleicht hast du eine von den Yacy-Firefox-Erweiterungen installiert?
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Mi Jan 01, 2014 7:32 pm

Danke für die Infos, David!

-> Proxy-Indexing: Das ist ein virtueller Server bei Hetzner. Da ist eigentlich nichts weiter installiert als
* zum Suchen: YaCy
* für den Seed (principal): lighttpd, proftpd
* und inzwischen noch ein TOR-Relay (die Proxy-Meldungen kamen aber schon vor dessen Installation)

Versuchsweise werde ich mal lighttpd und proftpd beenden und sehen, ob sich was ändert.

-> Die log-Meldung "denied by document-attached noindexing rule" deutet aber eher darauf hin, dass an der jeweiligen Webseite eine Info dran ist, dass sie nicht indiziert werden soll. Grad mal im Netz gesucht und ein Meta-Tag in HMTL gefunden, das dafür verantwortlich sein kann: <meta name="robots" .../>. YaCy berücksichtigt dies wahrscheinlich auch dann, wenn robots.txt ignoriert werden soll.
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: YACY indiziert, aber Zahl der Dokumente konstant

Beitragvon fherb » Mi Jan 01, 2014 10:45 pm

-> Proxy-Indexing:
Habe einen anderen Thread aufgemacht. Das scheint ein völlig anderes Problem zu sein. (viewtopic.php?f=5&t=5064&p=29328#p29328)
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste