OAI-PMH Importer

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

OAI-PMH Importer

Beitragvon bbtuxi » Do Jul 12, 2012 6:57 pm

Hi,

ich hab die Tage mit dem OAI-PMH Importer gespielt. Mir ist aufgefallen das die Handhabung sehr blöde ist. Man kann sich ja die ganzen Server in einer Liste anzeigen lassen und alle gleichzeitig versuchen zu laden. Nach einer Nacht hatte ich 20 GB im SURROGATES\in Verzeichnis.

Kann man nicht irgend etwas basteln, dass erst immer nur 1-2 Server komplett geladen werden und das IN Verzeichnis nicht zu Voll läuft. Am besten müßte Yacy sich noch merken welche Server komplett geladen wurden so das diese kein zweites mal geladen werden.



grüße
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: OAI-PMH Importer

Beitragvon Orbiter » Sa Jul 14, 2012 3:30 pm

das ist schon beschränkt auf eine Liste von Servern, ich glaube 20.
Und was ist daran, dass du in der Lage bist 20GB an Bibliotheksdaten mit YaCy in einer Nacht zu indexieren nun blöde?
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: OAI-PMH Importer

Beitragvon bbtuxi » So Jul 15, 2012 5:00 pm

Mein Computer ist dazu ja nicht in der Lage ;) Mich stören halt die 200.000 Dateien im IN-Verzeichnis, habe das Gefühl das Yacy dadurch sehr langsam wird. Und die Festplatte läuft langsam voll.

Ich hab es doch richtig verstanden, dass die Server-Liste fest ist? Jedesmal wenn ich einen Import starte läd er die Liste von oben nach unten durch? Dann würden die ersten Server ja ständig neu geladen?(nach einem Yacy Neustart bricht der Download ja ab) Ich markiere immer die ganze Liste, von Hand aussuchen ist etwas mühsam.


grüße
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: OAI-PMH Importer

Beitragvon Orbiter » So Jul 15, 2012 5:32 pm

ich bin ein wenig verwirrt... niemand zwingt dich doch die _ganze_ Liste oder überhaupt nur irgendeinen der Server auszuwählen. Hier wird die Option geboten einen oder mehrere OAI-PMH-Server zu harvesten. Den kannst du oben als URL angeben. Die Liste ist halt eine zusätzliche Dienstleistung, vor allem um das bei einer Demo einfacher zu machen. Wenn du wirklich 200.000 Dateien im IN-Verzeichnis hast, dann liegt das doch ausschliesslich daran dass du das _willst_.
Die Anzahl der Dateien kann ich nicht beeinflussen. Das liegt allein daran was die OAI-PMH-Server ablieferen und in welcher Stückelung. Die Dateien sind dann original das, was die Server geliefert haben.
Orbiter
 
Beiträge: 5796
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: OAI-PMH Importer

Beitragvon bbtuxi » So Jul 15, 2012 5:57 pm

Ich dachte mir halt, wenn es schon so eine Tolle Server Liste gibt, warum nicht nutzen und alle Server harvesten?

Du musst daran denken, das viele hier auch davon getrieben werden sich mit anderen zu messen, nach dem Motto wer hat die meisten Links in der Datenbank ;) Und auf diesem Wege geht das viel viel schneller als normal. Und sicher ist es nicht verkehrt alle Dokumente der OAI Server im index zu haben?

Okey, die Anzahl/Stücklung kannst du nicht ändern, aber wie wäre es wenn Yacy sich merkt welche Server zuletzt abgefragt wurden so könnte man nach und nach alle Server durch arbeiten.

Weil ich bekomme jetzt ständig die Meldung: 2012/07/15 18:53:28 SWITCHBOARD Not Condensed Resource 'http://bcpw.bg.pw.edu.pl/Content/806': indexing not wanted by federated rule for YaCy

Ich vermute mal das bedeutet, das ganze ist schon im Index?

grüße
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste