Frage Ex- und Import

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Frage Ex- und Import

Beitragvon LA_FORGE » Fr Jan 10, 2014 11:46 am

Hi,

ich habe bei einem meiner Peers den Index über die Seite IndexControlURLs_p.html exportiert (HTML, URLs with title). Wie importiere ich die jetzt am günstigsten bei einem anderen Peer?


Viele Grüße

Stefan
LA_FORGE
 
Beiträge: 542
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Ex- und Import

Beitragvon LA_FORGE » Sa Mär 29, 2014 4:59 pm

Hilfe!!
LA_FORGE
 
Beiträge: 542
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Ex- und Import

Beitragvon David » So Mai 04, 2014 10:10 am

Ich glaube es gibt zwar eine Export- aber keine Importfunktion. Um wieviele URLs handelt es sich denn?
David
 
Beiträge: 170
Registriert: Di Mär 05, 2013 5:35 pm

Re: Frage Ex- und Import

Beitragvon LA_FORGE » So Feb 22, 2015 6:29 pm

Um über 60 Mio. URLs handelt es sich. Wie hiess nochmal gleich das Verzeichnis in der YaCy Verzeichnisstruktur worin man Files ablegen kann die dann automatisch geladen & indexiert werden?

Wenn man das über den (Advanced) Crawler macht und eine Crawl-Depth von 0 eingestellt hat, wird trotzdem noch ne Menge aus dem Internet nachgeladen, bei der Indexgröße die ich importieren will würde das also Jahre dauern, da das forcierte Crawl-Delay ja hier noch hinzukommt. Ich habe mal einen Eintrag im Bugtracker dazu erstellt.
LA_FORGE
 
Beiträge: 542
Registriert: Sa Okt 11, 2008 5:24 pm

Re: Frage Ex- und Import

Beitragvon Orbiter » So Mär 01, 2015 8:56 pm

also du willst nur URL mit Titel importieren? Dazu gibt es keinen Import. Der normale Vorgang wäre es, das per Crawl Start wieder reinzuziehen.
Als Alternative kannst du diese Daten aber mit dem Surrogat-Reader einlesen, der will aber Record im Dublin Core Metadatenformat haben.
Orbiter
 
Beiträge: 5786
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron