Crawl starten "From File" - Fehler: wrong port in host fragm

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon sorhan » Di Nov 11, 2008 12:28 pm

Hallo,

erst einmal vielen Dank für ein klasse Programm, bei dessen Nutzung ich auch zu den Frischlingen zähle. Folgendes Problem habe ich leider nach Wiki-Besuch und Durchforsten anderer Forenbeiträge nicht lösen können und hoffe deshalb, dass einer der technikkundigeren Forenteilnehmer den Fehler identifizieren und evtl. beheben kann. Sollte ich die Antwort auf dieser oder eine ähnliche Frage übersehen haben, wäre ich für einen Hinweis auf den entsprechenden Forenbeitrag dankbar.

Ich möchte, dass der crawl von einer Liste mit Webseiten beginnt, die aus einer edierten bookmark-Datei besteht. Habe also bookmarks exportiert, gesäubert und gekürzt und als HTML auf der Platte gespeichert. Wenn ich versuche, den crawl von dieser Datei aus zu starten, erhalte ich die Fehlermeldung:

Fehler mit Datei Eingabe "C:\....\compl.html": wrong port in host fragment 'C:\....\compl.html' of input url 'file ://C:\....\compl.html'

Habe versuchsweise auch die Links händisch in eine Textdatei im HTML Format eingegeben, diese als .html / .txt gespeichert und versucht, den crawl damit anzuwerfen - das Ergebnis ist immer das selbe, an der Formatierung kann es dann aber doch nicht liegen? Ansonsten funktioniert der crawl auch einwandfrei, wenn ich ihn mit Eingabe einer URL starte (von folgender URL aus: http://localhost:8080).

Bewusst habe ich in die Datei auch keine Port-Angaben eingefügt. Kann es sein, dass YaCy die Verbindung zur Außenwelt fehlt, weil die Datei lokal auf meinem Rechner abgelegt ist?

Vielen Dank schon einmal,

Soren
sorhan
 
Beiträge: 4
Registriert: Di Nov 11, 2008 12:03 pm

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon lulabad » Di Nov 11, 2008 2:07 pm

lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon sorhan » Di Nov 11, 2008 5:26 pm

Vielen Dank :) , aber leider löst das mein Problem nicht. Die dort gegebenen Hinweise hatte ich schon berücksichtigt (soweit mir nicht unbeabsichtigterweise irgendwo ein Fehler unterlaufen ist). Es muss irgendwie an der Datei / ihrem Inhalt liegen, aber ich kann leider nicht herausfinden, was es ist. Weiss jemand vielleicht, was die Fehlermeldung bedeutet / worauf sie verweist?
sorhan
 
Beiträge: 4
Registriert: Di Nov 11, 2008 12:03 pm

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon Lotus » Di Nov 11, 2008 5:45 pm

Ich habe mir die Codestelle einmal angesehen.
Es kann nur sein, dass du in der Datei einen Bookmark "file ://C:\....\compl.html" hast, der in der falschen Routine aussortiert wird. Unterstützen wir überhaupt file://? In der Methode newURL wird das nämlich ausdrücklich zugelassen und weiter oben im Text der default port nur für http, https und ftp gesetzt.
Startet der Crawl denn trotz des Fehlers?
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon DanielR » Di Nov 11, 2008 6:26 pm

Lotus hat geschrieben:Unterstützen wir überhaupt file://?

Ich glaub das gab es schonmal, dass file nicht als Protokoll unterstützt wird.

Die Frage ist (wie Lotus schon schrieb) liegt es an der Datei oder am Crawl? Wann kommt der Fehler (Auszug aus Log wäre gut). Anscheinend wird das ja in der Weboberfläche ausgegeben (da deutsch). Falls es an der Datei liegt, die kannst du einfach in den HTTP-Server von yacy schmeißen und einen Crawl anstossen ;)

[Dazu Datei unter <yacy>/DATA/HTDOCS/www ablegen und mit http://localhost:8080/www/<dateiname> einen Crawl starten.]
DanielR
 
Beiträge: 395
Registriert: Di Feb 12, 2008 2:22 pm

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon sorhan » Mi Nov 12, 2008 10:53 am

Hallo Daniel und Lotus,

vielen Dank für Eure Hinweise und Ideen.

Ich bin Daniels Vorschlag gefolgt und habe versucht, den Crawl über den yacy-eigenen HTTP-Server anzustoßen, was folgende Fehlermeldung generierte:

Crawling von "http://localhost:8080/www/compl.html" schlug fehl. Grund: denied_(the host 'localhost' is local, but local addresses are not accepted)_domain=global

Danach habe ich dieselbe Datei auf einen externen Server hochgeladen und die damit verbundene URL als Startpunkt für den crawl definiert - und es funktionierte (was aber allerdings aufgrund der Tatsache, dass andere 'externe' crawls vorher schon funktionierten, nicht wirklich verwunderlich war).

Ich habe nun in die (19) .log-Dateien (unter ...\YaCy\DATA\LOG) geschaut, kann dort aber keine Hinweise finden, was wohl daran liegt, dass nur noch die Daten von dem letzten, ja nunmehr erfolgreichen crawl gespeichert wurden. Da ich aber gerne bei der Fehlersuche behilflich sein möchte, wollte ich fragen, ob ich die ursprüngliche Suchanfrage wiederholen kann, ohne dadurch die bereits generierten Ergebnisse zu verlieren bzw. bei deren Indexierung von vorn anfangen zu müssen?

Zu erwähnen vergessen hatte ich auch, dass ich mit yacy 0.610/05248 arbeite. Obwohl obiges Vorgehen nun zum gewünschten Ergebnis geführt hat, ergeben lokale Suchversuche immer noch die ursprüngliche Fehlermeldung. Aber das dürfte doch eigentlich nicht sein, denn wie sollte dann eine interne SuMa gebaut werden, wenn es an dem lokalen Bezug läge? Ist es möglicherweise der Dateityp? (habe versucht einen Auszug aus der bookmark-Seite anzuhängen, aber gleich welches Format (txt/htm/html) ich auch wähle, erhalte ich die Meldung 'Die Dateierweiterung [typ] ist nicht erlaubt.')
sorhan
 
Beiträge: 4
Registriert: Di Nov 11, 2008 12:03 pm

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon Low012 » Mi Nov 12, 2008 11:44 am

Wenn du die Datei als ZIP packst, sollte sie sich anhängen lassen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon sorhan » Mi Nov 12, 2008 1:17 pm

OK, danke, Low. Auszug anbei. Habe Crawl mit beiden Dateien versucht und denselben Fehler erhalten.
Dateianhänge
sample2.zip
Auszug aus Original-Datei, mit Editor gekürzt.
(750 Bytes) 29-mal heruntergeladen
sample.zip
Auszug aus Original-Datei, mit MS Word bearbeitet.
(1.81 KiB) 32-mal heruntergeladen
sorhan
 
Beiträge: 4
Registriert: Di Nov 11, 2008 12:03 pm

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon Lotus » Mi Nov 12, 2008 3:46 pm

Ich kann beide Beispieldateien Crawlen.
Probiere doch einmal r5331 oder neuer (Update über Webinterface).
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Crawl starten "From File" - Fehler: wrong port in host fragm

Beitragvon bluumi » Mi Nov 12, 2008 6:40 pm

Erstes Sample mit r5246 unter Linux SUSE uploaded und klappt. Jedenfalls habe ich keine FehlerMeldung bekommen.
bluumi
 
Beiträge: 388
Registriert: Mi Okt 08, 2008 7:27 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron