Crawler findet keine Links - Ergänzung!!!

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Crawler findet keine Links - Ergänzung!!!

Beitragvon spok » Do Mär 13, 2014 11:35 pm

Hallo,

mache gerade die ersten Schritte ...

Index Production - Crawler: gebe den URL der Website A ein, die gecrawlt werden soll; wenn kein Schreibfehler, dann erscheint ein grüner Haken und eine Liste der Links, die Yacy auf der Startseite gefunden hat. Wenn ich den Crawl starte, klappt alles prima.

Jetzt mache ich alles wie vor mit einem anderen URL - Website B; wieder erscheint ein grüner Haken, jedoch keine Liste von Links, obwohl die genau so vorhanden sind wie bei A (Haken bei Dynamik-URLs ist gesetzt); Wenn ich den Crawl starte, passiert nichts, d. h., der Crawl läuft nicht. Natürlich schaltet das Fenster um, man sieht die Seite, auf der unten die "Crawled Pages" angezeigt werden sollten, bei Staus steht "Running", aber das wars auch ...

Was läuft falsch?

Habe es gestern mit Yacy1.5 probiert

Heute:
- Yacy1.68 neu installiert
- alten index gelöscht
- Verhalten wie vor
- bitte selbst testen mit folgendem URL
- http://www.fraunhofer.de
spok
 
Beiträge: 3
Registriert: Do Mär 13, 2014 11:23 pm

Re: Crawler findet keine Links - Ergänzung!!!

Beitragvon Orbiter » Fr Mär 14, 2014 2:04 pm

Ich habe http://www.fraunhofer.de getestet und kann das reproduzieren. Hier ist was faul, folgendes passiert:
- YaCys http client läuft beim Laden in einen Time-Out

Eine manuelle Untersuchung des Zielhosts über telnet ergab:
Code: Alles auswählen
telnet www.fraunhofer.de 80
Trying 192.54.34.244...
Connected to www.fraunhofer.de.
Escape character is '^]'.
GET / HTTP/1.1
Host: www.fraunhofer.de

HTTP/1.1 200 OK
Date: Fri, 14 Mar 2014 12:57:54 GMT
Server: Apache
Last-Modified: Fri, 14 Mar 2014 12:51:50 GMT
Accept-Ranges: none
Content-Type: text/html; charset=utf-8
Vary: Accept-Encoding
Transfer-Encoding: chunked

b32

- die senden ohne Content-Length im http header
- die kodieren den Content mit Chunked-Encoding
- normalerweise kann man zwar einen http Content ohne Content-Length senden, dann muss aber der Server nach der Übertragung die Session zu machen
- das macht der Server aber nicht, weil Chunked-Encoding ja genau dafür gedacht ist, dass man immer was nachschieben kann (wir machen das mit der Suchseite so)

Wir brauchen hier noch eine Ausnahmeregel oder eine andere Time-Out Konfiguration, hm Sebastian, hast du eine Idee?
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawler findet keine Links - Ergänzung!!!

Beitragvon sixcooler » Fr Mär 14, 2014 4:12 pm

Hallo,

ich guck mir das natürlich gerne an - nur ob das heute noch etwas wird, kann ich nicht sagen.

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Crawler findet keine Links - Ergänzung!!!

Beitragvon RoGott » Sa Mär 22, 2014 2:39 pm

Hallo
ich habe das auch bei meinen Peers so erlebt, und habe dann den Crawel auf tiefere Ebene der Websitestruktur angesetzt, dann ging es meist und die Webseite wurde eingelesen.Ich habe auch festgestellt, wenn in der Website die ergaenzenden Befehle drinn stehen, lovt bei Yacy auch nix.
<meta name="robots" content="index,follow,noodp,noydir" />
noodp,noydir
der RSS Feed von denen laest sich auch nicht einlesen.
http://www.fraunhofer.de/de/rss/presse.rss

Frauenhofer hat in jeder Seite in den Metatags diese Befehle drinn

Gruss Roland
RoGott
 
Beiträge: 44
Registriert: Fr Aug 24, 2012 2:05 am
Wohnort: Erkelenz Geneiken

Re: Crawler findet keine Links - Ergänzung!!!

Beitragvon spok » Mi Mär 26, 2014 10:04 pm

Hallo nochmal,

wollte mich erkundigen, wie es jetzt weiter geht ...
Soll - kann ich überhaupt - das als Bug eintragen, trägt das jemand anders als Bug ein, ist es so von Interesse, dass es bearbeitet wird, ...?

Grüße

spok
spok
 
Beiträge: 3
Registriert: Do Mär 13, 2014 11:23 pm

Re: Crawler findet keine Links - Ergänzung!!!

Beitragvon spok » Di Aug 05, 2014 12:27 pm

Wollte nochmals hören, ob es weitergeht ...

Hasbe gerade den selben Test mit Yacy 1.72 wieder gemacht; aber es geht nicht ...

Grüße

spok
spok
 
Beiträge: 3
Registriert: Do Mär 13, 2014 11:23 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Exabot [Bot] und 3 Gäste

cron