crawl von einem file starten

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

crawl von einem file starten

Beitragvon ribbon » Sa Dez 08, 2012 2:45 pm

hallo
ich habe eine txt datei mit urls
diese sind im format `url`
also mit einem komma oben am anfang und ende, da auch excel so exportiert.
diese wollte ich nun crawlen, aber igendwie geht es nicht so gut von dem file auf der festplatte.
werden nur hyperlinks erkannt ? oder auch urls als txt zeile?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: crawl von einem file starten

Beitragvon sixcooler » Sa Dez 08, 2012 6:03 pm

Hallo,

so wie ich das in Erinnerung habe müssen Links in der Datei sein.

Cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: crawl von einem file starten

Beitragvon Lotus » So Dez 09, 2012 2:21 pm

Je Zeile eine URL sollte auch gehen.

Wie schon herausgefunden, liegt es wohl an den ''.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: crawl von einem file starten

Beitragvon ribbon » So Dez 09, 2012 9:39 pm

ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: crawl von einem file starten

Beitragvon ribbon » Do Dez 13, 2012 8:49 pm

wäre es machbar, eine mysql.db datenbank mit urls drinne zu crawlen?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: crawl von einem file starten

Beitragvon Orbiter » Fr Dez 14, 2012 6:04 pm

mach doch einen Export deiner DB und grepe dann auf 'http', dann hast du auch eine URL-Liste!
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: crawl von einem file starten

Beitragvon ribbon » Fr Dez 14, 2012 8:59 pm

mh danke, könnte ich mal probieren. habe eine lange url liste mit den ` ` drin, aber die kann ich ja rausnehmen.
generell ist es ja nicht so einfach (für mich) import und export für SQL zu machen, da mal bei jeglichem Tool die SQL immer in eine Server einbinden muss und nicht einfach als datei nehmen kann.
aber mit yacy bekommt man ja auch so viele urls, lerne gerade mehr über den export von yacy in den solr index.
der xml/liste/http export bricht ja bei 10,000 urls ab, wieso eigentlich nicht alle?
und gibt es für SLOR tools, wie man die dann in SQL bringen kann?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste