HDD-IO

Support für Fragen zu Solr im Allgemeinen und der Verwendung des in YaCy eingebetteten Solr
Forumsregeln
Hier sind Fragen zu Solr im Allgemeinen und der Verwendung des in YaCy eingebetteten Solr im speziellen gewünscht!

HDD-IO

Beitragvon sixcooler » Do Sep 06, 2012 9:51 pm

Hallo,

die Migration in den Solr-Index läuft wunderbar.

Was mich nur etwas wundert und stört sind die vielen HDD-Zugriffe.
In solr_36/data/index werden mehr Dateien angelegt und gemerged als das ich mit dem Auge folgen könnte.

Hat dazu schon jemand eine Idee?
Brauchen wir eine Art Schreib-Cache?
Oder Kann man da evtl. mit der Konfiguration des Solr etwas tun?
(wo ist der Beste Ansatz über die vielen Konfigurationsmöglichkeiten etwas zu erfahren?)

cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: HDD-IO

Beitragvon Orbiter » Do Sep 06, 2012 10:31 pm

sixcooler hat geschrieben:die Migration in den Solr-Index läuft wunderbar.

oh prima!

sixcooler hat geschrieben:Was mich nur etwas wundert und stört sind die vielen HDD-Zugriffe.
In solr_36/data/index werden mehr Dateien angelegt und gemerged als das ich mit dem Auge folgen könnte.

Hat dazu schon jemand eine Idee?
Brauchen wir eine Art Schreib-Cache?
Oder Kann man da evtl. mit der Konfiguration des Solr etwas tun?
(wo ist der Beste Ansatz über die vielen Konfigurationsmöglichkeiten etwas zu erfahren?)


zunächst zur Konfiguration von Solr: das, was in YaCy drin ist, ist eine exakte Kopie des Solr-Examples (aus dem apache-solr-3.6.1 tarball: apache-solr-3.6.1/example/solr) und dessen Konfiguration. Solr konfiguriert man hauptsächlich funktional über solr/conf/solrconfig.xml und semantisch über solr/conf/schema.xml. Ihr findet diese Datein in YaCy in /defaults/solr/solrconfig.xml und /defaults/solr/schema.xml welche bei jedem Startup von YaCy nach DATA/INDEX/freeworld/SEGMENTS/solr_36 kopiert werden, dem Ort wo Solr die Dateien dann erwartet.

Konkret: das Schreiben der Indexdateien in Solr erfolgt über lucene und das macht das sehr ähnlich wie wir mit den RWI-Dateien über einen Merge-Prozess. Man kann diesen beeinflussen über den 'mergeFactor' in solrconfig.xml, näheres dazu gibts in
http://wiki.apache.org/solr/SolrPerform ... ergeFactor

Ich muss zugeben damit noch nicht herumexperiment zu haben. Kannst du ja mal ausprobieren was passiert. Du musst nur in /defaults/solr/solrconfig.xml den Wert von mergeFactor ändern. Ggf. ist auch mergePolicy interessant.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: HDD-IO

Beitragvon Phiber » Fr Okt 05, 2012 1:13 pm

Habe versucht die SolR Einstellungen zu ändern. Leider überschreibt YACY bei einem Neustart diese Einstellungen wieder.

- Es gibt auch eine Ram-Buffer Einstellung bei SOLR, 32MB als Standard.
- Merge Factor beschreibt, wieviele z.b. 1 MB Dateien zuerst da sein müssen befor diese zu einem File zusammengefasst werden. Standard ist 10, ein grösserer Wert dürfte hier kaum helfen.

Das Problem ist eher die kleinste Anfangsgrösse für neue Daten, welche 1 KB zu sein scheint. Bin mir aber nicht sicher, welche Einstellung man da ändern müsste. Vielleicht <cache initialSize> ?
Phiber
 
Beiträge: 96
Registriert: So Okt 05, 2008 9:04 pm

Re: HDD-IO

Beitragvon Orbiter » Fr Okt 05, 2012 8:49 pm

das Überschreiben ist momentan da weil es sich jetzt hier um eine ausgedehnte experimentierphase handelt bei der man Leute nicht zwingen darf das manuell zu machen wenn ich was im code geändert habe was eine Änderung der Einstellung erfordert.

Das heisst aber nicht dass dies dich am Betrieb deiner Solr-Einstellungen hindern soll, denn du kannst ja einen externen Solr betreiben, das geht vollständig analog zum internen. Einfach den externen in der FederatedIndexing angeben und den internen ausschallten, dann stehen dir alle Möglichkeiten offen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Solr Support

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron