Crawl starten "From File"

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Crawl starten "From File"

Beitragvon wsb » Mi Jun 25, 2008 1:47 pm

Mache ich was falsch, oder ist's ein Bug?:

Also, ich will dem Crawler eine Liste von URLs in einer Datei geben, und diese URLs sollen nacheinander gecrawlt werden. Ich klicke bei "Expert Crawl Start" an "From File", wähle mit dem Dateibrowser die Datei aus, in der die URLs stehen, trage alles andere in das Formular ein, klicke auf "Start new Crawl" ... und nix geschieht. Auch nach Minuten noch nicht, und auch beim 2-ten Mal nicht.

Wenn ich dann die einzelnen Zeilen dieser Datei dem Crawler händisch "vorwerfe", tut er, was er soll.

Was mache ich falsch??
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon lulabad » Mi Jun 25, 2008 1:50 pm

Das muss soweit ich weiss als html drinstehen.
Also <a href="bal.blub">
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Crawl starten "From File"

Beitragvon Orbiter » Mi Jun 25, 2008 1:52 pm

ja, wie beispielsweise eine Bookmark-Datei wie man sie aus dem Browser exportieren kann.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawl starten "From File"

Beitragvon lulabad » Mi Jun 25, 2008 2:19 pm

Das sollte man vielleicht mal bei der Description dazuschreiben, sonst frägt in 2 Wochen wieder einer.
lulabad
 
Beiträge: 709
Registriert: Mi Jun 27, 2007 11:40 am
Wohnort: Im Herzen Bayerns

Re: Crawl starten "From File"

Beitragvon wsb » Mi Jun 25, 2008 2:20 pm

lulabad hat geschrieben:Das muss soweit ich weiss als html drinstehen.
Also <a href="bal.blub">

Hab ich nun genau so gemacht. Hat nicht geholfen. Gibts noch 'nen Trick? In einer exportieren Bookmarks-Datei steht ja noch jede Menge "drumherum" drin - muss sowas noch dazu?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon Orbiter » Mi Jun 25, 2008 3:03 pm

so weit ich weiss braucht das eine Datei, die sich irgendwie formal korrekt parsen läßt. "<a href="bal.blub">" ist zum Beispiel nicht richtig, das muss mindestens "<a href="bal.blub"></a>" heissen.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawl starten "From File"

Beitragvon wsb » Mi Jun 25, 2008 3:39 pm

Orbiter hat geschrieben:so weit ich weiss braucht das eine Datei, die sich irgendwie formal korrekt parsen läßt. "<a href="bal.blub">" ist zum Beispiel nicht richtig, das muss mindestens "<a href="bal.blub"></a>" heissen.

Bingo! :-) Nun crawlt der Crawler ... (rechts in dem Feld neben "From File" und "Browse" ist doch noch Platz, das hinzuschreiben).
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon wsb » Mo Mai 30, 2011 4:44 pm

wsb hat geschrieben:
Orbiter hat geschrieben:so weit ich weiss braucht das eine Datei, die sich irgendwie formal korrekt parsen läßt. "<a href="bal.blub">" ist zum Beispiel nicht richtig, das muss mindestens "<a href="bal.blub"></a>" heissen.

Bingo! :-) Nun crawlt der Crawler ... (rechts in dem Feld neben "From File" und "Browse" ist doch noch Platz, das hinzuschreiben).

Als ich heute (30.5.2011) nach langer Zeit mal wieder einen Crawl "from File" starten wollte, stand ich erstmal wieder rätselhaft davor - auf der Expert Crawl Seite stand immer noch nix dazu. Dann fand ich diesen Thread von vor einigen Jahren ... habe genauso den File angelegt, der wird auch gefunden und eingelesen ... und das wars - nix geschieht. So sieht die Datei im Prinzip aus:
<a href="http://www.blablabla.de/"></a>
<a href="http://www.blabla-blubb.de/"></a>

Was mache ich nun wohl wieder falsch?
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon sixcooler » Mo Mai 30, 2011 4:58 pm

Hallo,

ganz sicher bin ich mir auch nicht - aber: hast Du an Anfang ein '<html><head></head><body>' und am Ende ein '</body></html>' um das Ganze zu einem html zu machen?

cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Crawl starten "From File"

Beitragvon Orbiter » Mo Mai 30, 2011 5:07 pm

eine einfache Liste von URLs sollte es auch tun! Wenn nicht ists ein Bug.
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Crawl starten "From File"

Beitragvon wsb » Mo Mai 30, 2011 5:18 pm

sixcooler hat geschrieben:Hallo,
ganz sicher bin ich mir auch nicht - aber: hast Du an Anfang ein '<html><head></head><body>' und am Ende ein '</body></html>' um das Ganze zu einem html zu machen?
cu, sixcooler.

Hab ich jetzt auch noch probiert: aber es passiert nix.
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon sixcooler » Mo Mai 30, 2011 5:30 pm

und bei mir läuft das einwandfrei - hab es gerade noch mal ausprobiert

sehr seltsam
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Crawl starten "From File"

Beitragvon wsb » Mo Mai 30, 2011 6:20 pm

sixcooler hat geschrieben:und bei mir läuft das einwandfrei - hab es gerade noch mal ausprobiert
sehr seltsam

Welches Release hast Du laufen? Ich hab hier 0.99/7753
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon sixcooler » Mo Mai 30, 2011 6:37 pm

der letzte Versuch war mit 7760

Diese Funktion benutze ich fast täglich, auf einem Peer der auch recht häufig aktualisiert wird.

Wenn sich hier ein Bug einstellt sollte ich das mitbekommen - dachte ich.

Mal etwas zurück: woran machst Du fest das die Datei mit den Links korrekt geladen wurde?
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Crawl starten "From File"

Beitragvon wsb » Mo Mai 30, 2011 6:46 pm

sixcooler hat geschrieben:der letzte Versuch war mit 7760

Diese Funktion benutze ich fast täglich, auf einem Peer der auch recht häufig aktualisiert wird.

Wenn sich hier ein Bug einstellt sollte ich das mitbekommen - dachte ich.

Mal etwas zurück: woran machst Du fest das die Datei mit den Links korrekt geladen wurde?

Weil sie bei http://localhost:8080/CrawlProfileEditor_p.html korrekt angezeigt wird.

    crawler crawl start for c:\urls.txt
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon wsb » Mo Mai 30, 2011 7:19 pm

wsb hat geschrieben:
sixcooler hat geschrieben:der letzte Versuch war mit 7760

Diese Funktion benutze ich fast täglich, auf einem Peer der auch recht häufig aktualisiert wird.

Wenn sich hier ein Bug einstellt sollte ich das mitbekommen - dachte ich.

Mal etwas zurück: woran machst Du fest das die Datei mit den Links korrekt geladen wurde?

Weil sie bei http://localhost:8080/CrawlProfileEditor_p.html korrekt angezeigt wird.

    crawler crawl start for c:\urls.txt

JETZT hab ich's selber gemerkt, arrrrrrgh: der Dateiname MUSS auf .html enden. Nun gehts :-)
wsb
 
Beiträge: 201
Registriert: Mi Jun 27, 2007 2:53 pm

Re: Crawl starten "From File"

Beitragvon tinkerphone » Fr Okt 10, 2014 4:51 pm

Hi,
i just tried to use a file on my server named index.txt and index.html.
I tried content like
http://www. .....
http://www. .....
...

as well as
<a href .... >

both did not work. What is a working layout /setup for this? Do the number of links matter much?
tinkerphone
 
Beiträge: 26
Registriert: Fr Okt 10, 2014 10:38 am

Re: Crawl starten "From File"

Beitragvon tinkerphone » Mo Okt 13, 2014 9:44 am

tinkerphone hat geschrieben:Hi,
i just tried to use a file on my server named index.txt and index.html.
I tried content like
http://www. .....
http://www. .....
...

as well as
<a href .... >

both did not work. What is a working layout /setup for this? Do the number of links matter much?


Hi again,
a sample file (just 2 urls) would be great. I have no clue why its not working. I have tested a whatever.html with full <a href...></a>. With full html definition and without. The path to the file is correct. File permission is 666 and root is owner.
Nothing happens... :?:
tinkerphone
 
Beiträge: 26
Registriert: Fr Okt 10, 2014 10:38 am

Re: Crawl starten "From File"

Beitragvon sixcooler » Di Okt 14, 2014 2:06 pm

Hello tinkerphone,

I use a simple html-file to crawl from file.
Each link in a single row.
I think there is a limit of links when crawling from file - I've never tried more than 10.000 links.
If you have a lot of different hostnames in your links, this causes a lot of dns-requests. Some dns are limited on requests per time.

Code: Alles auswählen
<html><head></head><body>
<a href="http://lists.debian.org/debian-user-catalan/2009/debian-user-catalan-200904/msg00000.html">la e-recepta</a><br>
<a href="http://blog.boulabiar.net/2007/07/novell-hack-week.html">/home/boulabiar/Tech: Novell Hack Week</a><br>
</body></html>


cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Crawl starten "From File"

Beitragvon tinkerphone » Di Okt 14, 2014 2:18 pm

sixcooler hat geschrieben:Hello tinkerphone,

I use a simple html-file to crawl from file.
Each link in a single row.
I think there is a limit of links when crawling from file - I've never tried more than 10.000 links.
If you have a lot of different hostnames in your links, this causes a lot of dns-requests. Some dns are limited on requests per time.

Code: Alles auswählen
<html><head></head><body>
<a href="http://lists.debian.org/debian-user-catalan/2009/debian-user-catalan-200904/msg00000.html">la e-recepta</a><br>
<a href="http://blog.boulabiar.net/2007/07/novell-hack-week.html">/home/boulabiar/Tech: Novell Hack Week</a><br>
</body></html>


cu, sixcooler.


Hi, thanks a lot,
I will try your content and put in a file called links.html. For now I simply made a little program which uses the CrawlerAPI to send links - but that is not really quick. Hopefully I will have success this time. :)
tinkerphone
 
Beiträge: 26
Registriert: Fr Okt 10, 2014 10:38 am

Re: Crawl starten "From File"

Beitragvon tinkerphone » Do Okt 16, 2014 12:32 pm

I don´t get it....

I have sixcooler´s content in a file called small.html. I run yacy on a server and the file is in /root/uploads/small.html Owner is yacy, Group is deamon. (i also tried root:root). Persmissions are 774. The file is shown in the graphics on Crawler_p, "Running Crawls (1) and i can "Terminate" the crawl. BUT YaCy is simply not crawling. Nothing, no index change, no error... simply nothing. YaCy version 1.81/9091

Some status infos like: File readable, file not found ... would be great! For now i can enter whatever to the "From File (enter a path within your local file system)" field. No complains at all - same behavior as described above...
tinkerphone
 
Beiträge: 26
Registriert: Fr Okt 10, 2014 10:38 am


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron