Lesen von txt mit Links

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Lesen von txt mit Links

Beitragvon crawlnew » Mi Jan 23, 2013 11:46 am

Hallo Community,

Ich bin ganz begeistert von Yacy und meine Test für die Indizierung verliefen in den ersten Schritten auch sehr erfolgreich.

Jetzt geht es ans Eingemachte:
Ich möchte eine Datenbank mit Hilfe von DeepLinks auslesen (Rechte sind natürlich alle vorhanden). Um nicht für jedes Stichwort der Datenbank eine eigene HTML-Seite anlegen zu müssen, habe ich die Links für Yacy in einer Text-Datei generiert. Diese lese ich in der Form : <file://Pfad zur Datei/txt-Datei>. Das funktioniert mit dem Servlet (Crawl Start Experte) auch ohne Probleme, sowohl unter Windows als auch auf dem letztendlich dafür vorgesehenen Linux-Server.

Aber: Es gibt leider doch ein kleines Problem, bisher nur unter Windows getestet, weil ich den Server mit so was nicht belasten will:
1.) Um die ganze Sache zu vereinfachenun zu beschleunigen, habe ich pro Datei für 1Mio Stichwörter Links erzeugt.
2.) Diese Testdatei ist ca. 35 MB groß. Yacy liest auch, steigt aber nach ca. 10.000 verarbeiteten Links aus. Die Download-Daten sind 136 MB groß.
3.) Die Link-Tiefe ist mit "0" eingestellt.
4.) Beim Indizieren hat Yacy anscheinend mit den "letzten" Einträgen in der Textdatei angefangen.
5.) Die Java-Engine ist nach der Aktion ca 500.000 K groß und Yacy sagt mir: Bereit für neue Crawls.

Was ist zu tun? Muss ich wirklich für die knapp 6 MIO Stichwörter kleinere Dateien (ca. 10.000 Einträge) erzeugen oder gibt es einen anderen Weg damit Yacy an die Daten kommt?

PS Den Peer werde ich erst nach erfolgter vollständiger Indizierung freigeben :-)

Peter
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Lesen von txt mit Links

Beitragvon ribbon » Do Jan 24, 2013 8:09 pm

ich habe es auch probiert eine txt mit 1 mio urls einzulesen und es geht nicht gut.
viele robots.txt urls werden ausgeschlossen und bei einem testlauf von 1400 urls waren nur 700 dann drin am ende
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Lesen von txt mit Links

Beitragvon crawlnew » Fr Jan 25, 2013 11:57 am

Hi,

bei meinen Tests scheint sich zu zeigen, dass es anscheinend auch vom MIME-TYPE abhängt. Ich bekomme andere Ergebnisse, wenn ich eine txt- oder eine html-Datei einlese.
Es sient auch so aus, als ob man an der Form des Links "drehen" kann, wenn man sie z.B. in eine table einbettet, kommen noch einmal andere Ergebnisse. Zur Zeit teste ich aber mit kleineren Datein ca. 5.000 Links.

Ich lasse wissen, wie man es am Besten hinkriegt.

Peter
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Lesen von txt mit Links

Beitragvon crawlnew » Fr Jan 25, 2013 2:40 pm

Also... 10.000 Links scheinen die Obergrenze zu sein.
crawlnew
 
Beiträge: 14
Registriert: Mi Okt 08, 2008 8:55 am

Re: Lesen von txt mit Links

Beitragvon ribbon » Fr Jan 25, 2013 4:33 pm

ach das ist doch doof, kann jemand das auf 2 Mio setzen ?
ribbon
 
Beiträge: 212
Registriert: So Jan 06, 2008 4:23 pm

Re: Lesen von txt mit Links

Beitragvon Orbiter » Di Feb 05, 2013 11:15 am

das habe ich vor ein paar Tagen aufgrund eines anderen Threads hier hochgesetzt
Orbiter
 
Beiträge: 5792
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast