Kann man keine FTP-Server crawlen?

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Kann man keine FTP-Server crawlen?

Beitragvon tikkel » Do Apr 22, 2010 12:05 pm

... kann man keine FTP-Server crawlen?

Fehlermeldung beim Parser:
ftpserver ftpserver ftp://10.176.98.192/ cannot load: load error - FTPLoader: Unable to download URL ftp://10.176.98.192/ Errorlog: FTPC: ---- Connection to server lost.

Serverlog:
I 2010/04/22 12:59:54 APICALL /Crawler_p.html?xsstopw=on&crawlingDomMaxPages=10000&bookmarkFolder=/crawlStart&intention=&crawlOrder=on&range=wide&indexMedia=on&sitemapURL=&crawlingIfOlderUnit=month&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=ftp://10.176.98.192&crawlingFile=&bookmarkTitle=FTP:%20ftp://10.176.98.192&mustnotmatch=&crawlingDomFilterDepth=1&crawlingFile%24file=&crawlingstart=Neuen%20Crawl%20starten&mustmatch=.*&crawlingIfOlderNumber=3&crawlingDepth=3
I 2010/04/22 12:59:56 BALANCER re-fill of domain stacks; fileIndex.size() = 1, domainStacks.size = 1, collection time = 0 ms
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Kann man keine FTP-Server crawlen?

Beitragvon Low012 » Do Apr 22, 2010 1:06 pm

Ich habe gestern mit der neusten Entwicklerversion ftp://mirror.switch.ch/ gecrawlt und das hat funktioniert. Da die IP des Servers, den du crawlen möchtest, aus einem privaten IP-Block stammt, schätze ich, dass der Server bei dir im Intranet steht und eigentlich gut erreichbar sein müsste.

Was mir spontan einfällt, was du überprüfen könntest:

  • Ist der FTP-Server vom YaCy-Peer aus wirklich erreichbar? In manchen Netzen funktioniert das Routing ja seltsamer, als man sich das denkt. ;)
  • Ist dein Peer so eingestellt, dass er das Crawlen von Adressen im Intranet erlaubt? (Einstellung auf http://localhost:8080/ConfigBasic.html) Eigentlich würde ich da eine andere Fehlermeldung erwarten, aber wer weiß...
  • Wenn du eine ältere Version benutzt, könntest du über http://localhost:8080/ConfigUpdate_p.html mal die neuste Entwicklerversion installieren und schauen, ob es damit funktioniert.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Kann man keine FTP-Server crawlen?

Beitragvon tikkel » Fr Apr 23, 2010 12:47 pm

- ja, FTP-Server ist im Intranet und einwandfrei (ohne Proxy) erreichbar
(im Webbrowser kann ich ganz normal lesend drauf rumsurfen)

- in der Eingangskonfiguration steht er auf: "Intranet Indexierung"
- in der Netzwerkkonfiguration:
Netzwerk Definition: defaults/yacy.network.intranet.unit
Netzwerk Nick: intranet
Lange Beschreibung: Private Intranet
Indexierungs Domain: local
DHT: false
- und:
[X] Remotecrawl-Anfragen akzeptieren
(X) Robinson Modus
(X) Öffentlicher Peer

- Version war: 0.94/6683
- nach Deinem empfohlenen Update: 0.94/6835

... es geht aber trotzdem nicht?

Zum Server kann ich sagen:
Typ: UNIX
Transfermode: Passiv
Zeichensatz: UTF-8
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Kann man keine FTP-Server crawlen?

Beitragvon Low012 » Fr Apr 23, 2010 4:11 pm

Ich muss mal schauen, ob ich es am Wochenende schaffe, einen lokalen FTP-Server aufzusetzen und zu testen, ob es bei mir im privaten Netz geht...

edit: Kannst du mir sagen, welchen FTP-Server du einsetzt? Ggf. kann ich deine Situation dann besser nachstellen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Kann man keine FTP-Server crawlen?

Beitragvon tikkel » So Apr 25, 2010 11:57 am

FTP-Server: proftpd
Version: 1.3.1-6ubuntu1

Betriebssystem: ubuntu-804-LTS
Kernel: 2.6.24-26-server
Umgebung: VMware ESXi-3.5

Der Administrator hat für den ftpd einen Passwortlosen "Anonymous" eingerichtet, der nur lesen kann. Im Webbrowser brauche ich keinerlei User/Passwort-Fragen beantworten, aber vielleicht muß der YACY-Crawler sowas mitgeben?

Gruß Marko
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Kann man keine FTP-Server crawlen?

Beitragvon Quix0r » So Apr 25, 2010 6:57 pm

Ich kenne jetzt den FTP-Crawler nicht, aber eventuell koennte dein FTP-Server so eingestellt sein, dass dieser nur Email-Adressen als "Passwort" akzeptiert. Dies ist sehr ueblich (obwohl auch nicht problematisch, da man auch Email-Adressen wie ist-doch@alles-egal.org senden kann) und gut verbreiten.

Bitte schau mal nach, ob es daran liegen kann, ich weiss aber wie gesagt nicht, ob der FTP-Client von YaCy etwas sendet. (Bin zu 80% User ;) )
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Kann man keine FTP-Server crawlen?

Beitragvon tikkel » So Apr 25, 2010 7:46 pm

... wie gesagt, wenn ich den FTP-Server mit Firefox anbrowse, muß ich nix eingeben.
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am

Re: Kann man keine FTP-Server crawlen?

Beitragvon Quix0r » So Apr 25, 2010 8:19 pm

Firefox sendet auch (meine ich) eine anonyme Adresse. Bei Netscape konnte man das noch einstellen, bei Firefox weiss ich es nicht. Vielleicht kann jemand mit mehr Code-Wissen das beantworten und nachschauen? :oops:
Quix0r
 
Beiträge: 1345
Registriert: Di Jul 31, 2007 9:22 am
Wohnort: Krefeld

Re: Kann man keine FTP-Server crawlen?

Beitragvon Orbiter » So Apr 25, 2010 10:50 pm

mit dem account ist alles in Ordnung, anonyme ftp-accounts haben genau den account-Namen 'anonymous' (schom mal in einem anderen Zusammenhang gehört???)

Das Fehler-Log oben spricht dafür das der Server nach dem Zugriff schneller die Verbindung zu gemacht hat als der client, dort wurde eine Fehlermeldung erzeugt die dann als Fehler bei der Übertragung der Daten gewertet wurde. Ich versuche hier einen Fix indem keine Fehlermeldung meim Closen mehr geschrieben wird, vielleicht hilft das.
SVN 6838
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Kann man keine FTP-Server crawlen?

Beitragvon tikkel » Di Apr 27, 2010 4:36 pm

SVN 6838 finde ich nicht, hab dann einfach auf SVN 6841 aktualisiert.

Es geht aber immer noch nicht, als Parser Fehlermeldung kommt jetzt schlicht: "server download"

Im Server Log kommt:

I 2010/04/27 17:35:07 APICALL /Crawler_p.html?crawlingDomMaxPages=10000&bookmarkFolder=/crawlStart&intention=&range=wide&indexMedia=on&sitemapURL=&crawlingIfOlderUnit=day&cachePolicy=iffresh&indexText=on&crawlingMode=url&crawlingURL=ftp://10.176.98.192/&crawlingFile=&bookmarkTitle=&mustnotmatch=&crawlingDomFilterDepth=1&crawlingFile%24file=&crawlingstart=Neuen%20Crawl%20starten&mustmatch=.*&crawlingIfOlderNumber=7&crawlingDepth=4

I 2010/04/27 17:35:07 BALANCER re-fill of domain stacks; fileIndex.size() = 1, domainStacks.size = 1, collection time = 0 ms
tikkel
 
Beiträge: 12
Registriert: Mo Jan 04, 2010 7:40 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron