Lucene/Solr

Support für Fragen zu Solr im Allgemeinen und der Verwendung des in YaCy eingebetteten Solr
Forumsregeln
Hier sind Fragen zu Solr im Allgemeinen und der Verwendung des in YaCy eingebetteten Solr im speziellen gewünscht!

Lucene/Solr

Beitragvon Low012 » Mo Apr 04, 2011 1:22 pm

Bei Heise gibt es ein Interview mit jemandem, der eine Firma betreibt, die Beratung im Bereich Apache Lucene/Solr anbietet: http://heise.de/-1214998
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Lucene/Solr

Beitragvon Orbiter » Di Apr 05, 2011 9:15 am

solr ist sehr interessant und ich empfehle jedem das Ding mal zu installieren und eine kleine Suche darin zu realisieren. Auch um den Vergleich mit YaCy (was das Interface angeht) ziehen zu können.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Orbiter » Do Apr 14, 2011 11:00 pm

FETTES Update:
Man kann jetzt mit YaCy einen Solr Index befüllen, SVN 7655

SVN 7654 hat geschrieben:Added federated index storage to solr.
YaCy supports now the storage to remote solr indexes.
More federated storage (and search) methods may follow.

The remote index scheme is the same as produced by the SolrCell; see
http://wiki.apache.org/solr/ExtractingRequestHandler
Because this default scheme is used, the default example scheme can be used as solr configuration
This is also the same scheme that solr uses if documents are imported with apache tika.

federated solr storage is switched off by default.

To use this, do the following:
- set federated.service.solr.indexing.enabled = true
- download solr from http://www.apache.org/dyn/closer.cgi/lucene/solr/
- extract the solr (3.1) package, 'cd example' and start solr with 'java -jar start.jar'
- start yacy and then start a crawler. The crawler will fill both, YaCy and solr indexes.
- to check whats in solr after indexing, open http://localhost:8983/solr/admin/

Until now it is not possible to use the solr index to search with YaCy in that solr index.
This functionality is now available for two reasons:
1) to compare the functionality of Solr and YaCy and to compare the search speed
2) to use YaCy as a search appliance for people who need a crawler or other source harvesting methods
that YaCy provides (like dublin core reading, wikimedia dump reading, rss feed reader etc) if people still
want to use solr instead of YaCy.


Das eröffnet jetzt die Möglichkeit Vergleiche zwischen solr und YaCy ziehen zu können.
Wer sich mit Suchmaschinen beschäftigt kann man wirklich raten mal auf solr zu gucken, und hier ergibt sich für YaCy-User ein ganz einfacher Einstieg. Wie man das macht steht oben in der Box.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Orbiter » So Jun 24, 2012 9:31 am

noch ein Updates dazu: solr wird nun fester Bestandteil und wird für folgendes benutzt:
1) zunächst lediglich als Ersatz für den Metadatenstore
2) als 'Abfallprodukt' von 1) auch als Textstore damit bei der Snippet-Berechnung das neu-Parsen vermieden werden kann
3a) als finalen Schritt auch zur Suche, hierzu ist es aber notwenig ein solr response-Modul zu schreiben welches die remote Suche mit einbezieht. Das ist die optimale Lösung und integriert dann sozusagen die YaCy RWIs in/nach solr(!) um dann solr als Suchalgorithmus nutzen zu können. Das ist aber knifflig. Wird aber toll
3b) wenn solr als Suche benutzt wird, muss das Suchinterface von YaCy die solr-Schnittstelle abfragen. Dazu wäre es gut, dieses vollständig in ajax auszudrücken. Das ist aber eher ein geringeres Problem als 3a)
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon bbtuxi » Mo Jun 25, 2012 7:33 pm

Wird jetzt die bisherige Datenbank komplett geändert?

Was ändert sich am Ende mit Solr? Bessere Suchergebnisse, weil du geschrieben hast Suchalgorithmus ?
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Lucene/Solr

Beitragvon Orbiter » Mo Jun 25, 2012 8:03 pm

bbtuxi hat geschrieben:Was ändert sich am Ende mit Solr? Bessere Suchergebnisse, weil du geschrieben hast Suchalgorithmus ?

wenn heute jemand nach einer Indexierungstechnik sucht und Infrastruktur (crawler, parser, suchinterface) braucht hat er die Wahl zwischen zwei 'problemen':
- entweder man nimmt solr, dann hat man einen inzwischen anerkannten Industriestandard und tatsächlich äusserst potente Suche (stemming, navigation, Konfigurierbarkeit besser als bei YaCy) aber dafür keine Infrastruktur (was zum klicken um ruck zuck eine Suchappliance zu bekommen)
- oder man nimmt YaCy dann hat man die Infrastruktur, aber man muss einen Indexierer ausserhalb des anerkannten Standards akzeptieren.

Wenn wir in YaCy solr benutzen gibts für solr-Nutzer ohne Programmierambitionen kaum einen Grund, nicht YaCy zu nehmen. Dabei gewinnt sowohl solr als auch wir an Nutzern. Das ist gut für uns alle, wir erweitern Solr um die vorhandenen p2p-Funktionen. Was wir dabei aufgeben ist winzig (urldb) im Vergleich zum Rest und wir eliminieren damit sogar einen RAM-Fresser.

bbtuxi hat geschrieben:Wird jetzt die bisherige Datenbank komplett geändert?

nein, nur die urldb wird ersetzt. Ich werde eine Migration von den alten Daten zu den neuen Daten einbauen die ohne aktive Konfiguration alleine abläuft. Die RWIs bleiben da weil diese als 'schneidbare' Index-Referenzmasse gebraucht wird. Wir gewinnen dabei die schon immer gewünschte Index-Duplizierung (was remote verschickt wird nicht lokal löschen). Die drei oben erwähnten Schritte sind welche die wenig Risiken bringen aber am Ende großen Nutzen.

Also keine Angst, das ist keine 180grad Wende und es wird nix verloren gehen. Jedenfalls nicht geplant.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Orbiter » Fr Aug 10, 2012 8:55 pm

mit den commits von heute ist die fundamentale Integration von Solr als Ersatz der Metadaten-DB geschafft! D.h. wer jetzt will kann die neue Konfiguration testen und in einen pre-Migrations-Mode gehen. Dazu bitte einfach in /IndexFederated_p.html den "embedded solr search index" Knopf drücken. Daraufhin ist Solr aktiv und nimmt alle neuen Metadaten auf, es werden keine neuen Daten in die bisherigen Metadaten-DB Files geschrieben. Das einzige was man nun noch für eine volltändige Migration braucht ist ein Umkopieren der alten Metadaten-DB Daten nach Solr.

Ich hoffe es beteiligen sich genügend Leute für diesen Test, denn daraufhin wird diese Einstellung dann default werden und alle Peers migrieren nach Solr.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Low012 » Mo Aug 13, 2012 10:00 am

So, habe es mal umgestellt. Bis jetzt scheint alles wie gewünscht zu laufen.
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Lucene/Solr

Beitragvon Orbiter » Do Aug 16, 2012 5:20 pm

hab ein letztes build gemacht vor der Umschaltung für alle: yacy_1.04.9097
Das danach folgende build mit Versionsnummer 1.041 hat nun für alle den Solr Index angeschaltet. Sollte keine Katastrophe auslösen. Wenn bis zum Wochenende alles gut ist mache ich ein 1.1 damit für die Campus Party eine anständige Version da ist.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Orbiter » Do Aug 16, 2012 7:11 pm

Diese Schritt hat natürlich auch ein bestimmtes Ziel: genügend Solr-Peers zu haben um eine neue remote Suche zu supporten, die dann nicht auf /yacy/search sondern /solr/query aufsetzt. Diese gehe ich jetzt als zusätzliche remote suche an. Wird wohl nie die bisherige Strategie ersetzten weil die bisherige nicht schlecht ist aber so eine zweite Strategie trotzdem gut gebrauchen kann. Das ganze lässt sich dann aber nur testen wenn schon ein paar Peers mit solr drin da sind...
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon sixcooler » Sa Aug 18, 2012 2:30 am

Hallo,

seit einiger Zeit fülle ich auf meinem dicken Peer den solr-index (schon 800M groß).
Dort - auf einer älteren Versione (ein paar Tage älter) scheint auch alles fein zu laufen - nur vermisse ich Suchergebnisse von Seien die in dem neuen Index sein sollten - das gucke ich mir aber ein anderes Mal an.

Heute Gabs ja super viele Änderungen. Mit denen hab ich nun auf einem anderen Peer einen ganz frischen Index angefangen - also nur Solr.
Nach etwas Crawlen ist die Speichernutzung aber nun schon super hoch.
Ich bemerke recht viele full-GCs und im groben kann man den Peer schon als 'voll' bezeichnen.
Mit 700MB Ram für den Peer mit neuem neuem Index nach nur ein paar Stunden ist das ja nun nicht das was bisher ging.

Kann das noch wer so beobachten?

cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Lucene/Solr

Beitragvon Orbiter » Sa Aug 18, 2012 12:25 pm

interessant, ich hatte mir kaum vorstellen können wie man mit weniger Speicher als mit meinem Index auskommen konnte. Wenn wir hier nun fett auf die Nase fallen mit Solr wäre das ja blöd. Als Maßnahme habe ich erst mal überlegt ob man diel alten Metadaten in Zukunft als Option beibehalten könnte und dazu einen ausgebauten Code eben wieder eingebaut.

Eine weitere Sache die wir machen können um den Speicherbedarf einzugrenzen ist die Anzahl der Felder im Schema zu begrenzen. Da kann man in /IndexFederated_p.html ja einfach Felder ausschalten was dann auch Speicher sparen sollte. Jedenfalls kann man da nicht alles aus machen, ein paar Felder die im alten Metadaten-Profil drin sind sollten bleiben. Ich müsste die mal insofern kennzeichnen.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Lotus » Mo Aug 20, 2012 10:08 am

Ich habe die 1.041/9123 mal frisch gestartet ohne Einstellungen zu ändern, ohne Crawls.
- Ich habe das Gefühl, dass es schon bei 125.000 Links / 15.000 RWI anfängt zyklisch auf der Festplatte zu rattern, sodass es mich etwas stört. Vorher habe ich das selten feststellen können, und das auch erst bei deutlich mehr Links.
- Im Log tauchen noch viele Debug-Informationen auf.
- zum Speicherverbrauch (RAM) kann ich noch nichts sagen, ist noch moderat.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Lucene/Solr

Beitragvon Orbiter » Mo Aug 20, 2012 12:20 pm

ja die Debug-Meldungen müssen noch reduziert werden.
Ein rattern kann ich bei mir nicht hören, dafür ist der große Ventilator neben mir zu laut :)
Wenn du einen Peer mit einem alten Index hast kann es sein dass der Aufwand etwas höher ist, weil es inzwischen eine 'sanfte migration' gibt die jede aus der alten gelesenen Metadaten-DB dort entfernt und nach Solr schreibt.

Seit heute Mittag gibts nun auch eine remote suche auf Basis der neuen solr-api! Dabei werden neben der RWI-Suche auch noch solche Peers ausgewählt, die diese API haben und ein Node peer sind.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon gaston » Mo Aug 20, 2012 1:53 pm

Wie groß dürfen den Solr Dateien werden, ich habe hier eine die schon 3,06GB hat.

Gegen rattern hilft eine SSD, hatte zum noch eine übrig :)

Ohne SSD und weil YaCy/Solr die Dateien auch gerne fragmentieren (auch unter Linux...). Hier hilft es aber hin und wieder die Daten einmal zu kopieren (nicht verschieben).
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Lucene/Solr

Beitragvon Lotus » Mo Aug 20, 2012 5:25 pm

Ich habe nun ein Update auf die aktuelle Version gemacht und inzwischen 500.000 Links.

Im Ordner /DATA/INDEX/freeworld/SEGMENTS/solr_36/data/index werden die ganze Zeit viele Dateien in KB-Größe neu angelegt. Daher wird das Rattern auf der Festplatte kommen. Erinnert mich irgendwie an das YaCy vor einiger Zeit.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Lucene/Solr

Beitragvon gaston » Di Aug 21, 2012 3:43 pm

Habe mal wieder "Index Distribution" eingeschaltet und prompt wurde ich mit OutOfMemoryError belohnt, und das mit 4GB Speicher.

Ob das Solr so eine gute Sache ist...

Code: Alles auswählen
W 2012/08/21 16:38:34 StackTrace Java heap space
java.io.IOException: Java heap space
        at net.yacy.cora.services.federated.solr.SolrServerConnector.get(SolrServerConnector.java:248)
        at net.yacy.cora.services.federated.solr.AbstractSolrConnector.exists(AbstractSolrConnector.java:54)
        at net.yacy.cora.services.federated.solr.MirrorSolrConnector.exists(MirrorSolrConnector.java:193)
        at net.yacy.search.index.Fulltext.exists(Fulltext.java:381)
        at transferRWI.respond(transferRWI.java:226)
        at sun.reflect.GeneratedMethodAccessor6.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:601)
        at de.anomic.http.server.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1395)
        at de.anomic.http.server.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:939)
        at de.anomic.http.server.HTTPDFileHandler.doPost(HTTPDFileHandler.java:256)
        at de.anomic.http.server.HTTPDemon.POST(HTTPDemon.java:537)
        at sun.reflect.GeneratedMethodAccessor4.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:601)
        at de.anomic.server.serverCore$Session.listen(serverCore.java:767)
        at de.anomic.server.serverCore$Session.run(serverCore.java:658)
Caused by: java.lang.OutOfMemoryError: Java heap space
        at java.lang.StringCoding$StringDecoder.decode(StringCoding.java:149)
        at java.lang.StringCoding.decode(StringCoding.java:193)
        at java.lang.String.<init>(String.java:416)
        at org.apache.lucene.store.DataInput.readString(DataInput.java:187)
        at org.apache.lucene.index.FieldsReader.addField(FieldsReader.java:423)
        at org.apache.lucene.index.FieldsReader.doc(FieldsReader.java:253)
        at org.apache.lucene.index.SegmentReader.document(SegmentReader.java:492)
        at org.apache.lucene.index.DirectoryReader.document(DirectoryReader.java:568)
        at org.apache.solr.search.SolrIndexReader.document(SolrIndexReader.java:259)
        at org.apache.lucene.index.IndexReader.document(IndexReader.java:1138)
        at org.apache.solr.search.SolrIndexSearcher.doc(SolrIndexSearcher.java:464)
        at org.apache.solr.util.SolrPluginUtils.optimizePreFetchDocs(SolrPluginUtils.java:265)
        at org.apache.solr.handler.component.QueryComponent.doPrefetch(QueryComponent.java:494)
        at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:401)
        at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:186)
        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:129)
        at org.apache.solr.core.SolrCore.execute(SolrCore.java:1376)
        at org.apache.solr.client.solrj.embedded.EmbeddedSolrServer.request(EmbeddedSolrServer.java:142)
        at org.apache.solr.client.solrj.request.QueryRequest.process(QueryRequest.java:89)
        at org.apache.solr.client.solrj.SolrServer.query(SolrServer.java:311)
        at net.yacy.cora.services.federated.solr.SolrServerConnector.get(SolrServerConnector.java:243)
        at net.yacy.cora.services.federated.solr.AbstractSolrConnector.exists(AbstractSolrConnector.java:54)
        at net.yacy.cora.services.federated.solr.MirrorSolrConnector.exists(MirrorSolrConnector.java:193)
        at net.yacy.search.index.Fulltext.exists(Fulltext.java:381)
        at transferRWI.respond(transferRWI.java:226)
        at sun.reflect.GeneratedMethodAccessor6.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:601)
        at de.anomic.http.server.HTTPDFileHandler.invokeServlet(HTTPDFileHandler.java:1395)
        at de.anomic.http.server.HTTPDFileHandler.doResponse(HTTPDFileHandler.java:939)
        at de.anomic.http.server.HTTPDFileHandler.doPost(HTTPDFileHandler.java:256)
        at de.anomic.http.server.HTTPDemon.POST(HTTPDemon.java:537)


Code: Alles auswählen
W 2012/08/21 16:45:36 StackTrace Java heap space
java.io.IOException: Java heap space
        at net.yacy.cora.services.federated.solr.SolrServerConnector.get(SolrServerConnector.java:248)
        at net.yacy.cora.services.federated.solr.MirrorSolrConnector.get(MirrorSolrConnector.java:214)
        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:213)
        at net.yacy.search.index.Fulltext.getMetadata(Fulltext.java:206)
        at net.yacy.peers.dht.Transmission$Chunk.add(Transmission.java:179)
        at net.yacy.peers.dht.Dispatcher.enqueueContainersToCloud(Dispatcher.java:312)
        at net.yacy.peers.dht.Dispatcher.selectContainersEnqueueToCloud(Dispatcher.java:363)
        at net.yacy.search.Switchboard.dhtTransferJob(Switchboard.java:3067)
        at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:601)
        at net.yacy.kelondro.workflow.InstantBusyThread.job(InstantBusyThread.java:109)
        at net.yacy.kelondro.workflow.AbstractBusyThread.run(AbstractBusyThread.java:161)
Caused by: java.lang.OutOfMemoryError: Java heap space
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Lucene/Solr

Beitragvon gaston » Mi Aug 22, 2012 7:49 am

Orbiter hat geschrieben:j... der Aufwand etwas höher ist, weil es inzwischen eine 'sanfte migration' gibt die jede aus der alten gelesenen Metadaten-DB dort entfernt und nach Solr schreibt.

Ich hoffe mal das das um-kopieren der Grund ist warum eingehende Suchanfragen bei mir jetzt länger dauern. Ich würde das um-kopieren lieber komplett Offline machen.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Lucene/Solr

Beitragvon Orbiter » Mi Aug 22, 2012 8:05 pm

naja ein script dafür wäre schon gut, aber ich bezweifle dass man das der Masse an Usern zumuten kann und somit ist das hier wohl die einfachste Art. Ich will auch ein Script machen das automatisch während idle-Zeit läuft aber dazu bin ich noch nicht gekommen. Wenn die alte DB leer ist ergibt sich dadurch auch ein Speichergewinn. Ich weiss nicht ob Solr das wieder auffrisst aber wir müssen dieses Experiment wohl wagen, ohne Solr wären wir auf lange Sicht nicht mehr konkurrenzfähig.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon gaston » Sa Aug 25, 2012 6:02 pm

Kurzes Feedback: die OutOfMemoryError sind mit 1.1 bis jetzt nicht mehr vorgekommen. Werde mein Peer jetzt mal "ausbluten" lassen (akt. 11,490,476 RWIs), mal gucken wie lange das dauert und wie negativ das auf meine Suchanfragen auswirkt. Das war ja der Grund warum ich "Index Distribution" aus hatte.
gaston
 
Beiträge: 143
Registriert: Fr Jan 06, 2012 2:22 pm

Re: Lucene/Solr

Beitragvon Orbiter » Do Sep 06, 2012 9:43 pm

um nochmal auf Marcs Originalposting für diesen Topic zurückzukommen: Solr/Lucene ist sowas wie Industriestandard schon seit Jahren, aber der Support für Solr ist irgendwie noch nicht in einem speziellem Forum anzutreffen. Wenn man mit Entwicklern diskutieren will, muss man in die Mailinglisten von Solr gehen. Die sind hier: http://lucene.apache.org/solr/discussion.html

Solr entstand aus dem Engagement der Firma Lucid Imagination; die sind natürlich Hauptansprechpartner bei kommerziellen Fragen. Vielleicht wollen die ja kein Forum? Das kann man ändern: wir haben hier eins!
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Orbiter » Fr Nov 02, 2012 2:29 pm

update: hab nun auf solr 4.0.0 migriert!
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon sixcooler » Sa Nov 03, 2012 2:40 pm

Hallo,

Solr-4.0.0 läuft bei meinen Peers übrigens sehr gut.
Auch der kleine Problem-Peer läuft wieder fein.

cu, sixcooler.
sixcooler
 
Beiträge: 494
Registriert: Do Aug 14, 2008 5:22 pm

Re: Lucene/Solr

Beitragvon bbtuxi » Mi Nov 07, 2012 6:16 pm

Ich hab unter:
http://www.heise.de/developer/artikel/D ... kelseite=2

folgendes gelesen:


Und vieles andere mehr
Die für die "Meinten Sie"-Funktion benötigte SpellCheck-Komponente muss nicht mehr auf einem separaten Index agieren, sondern die Vorschläge beruhen jetzt direkt auf dem Hauptindex. Damit kommt es nicht mehr zu Inkonsistenzen bei der Rechtschreibprüfung und die Latenz zwischen indiziertem sowie vorgeschlagenem Inhalt ist entfernt.


Nutzt Yacy dass schon? "Meinten Sie" und die "Rechtschreibprüfung"?

grüße
bbtuxi
 
Beiträge: 50
Registriert: Fr Jan 16, 2009 10:28 pm

Re: Lucene/Solr

Beitragvon Low012 » Fr Nov 09, 2012 3:17 pm

Wenn sich da nicht ohne dass es an mir vorbei gegangen ist, großartig was geändert hat, wird das noch nicht genutzt. Ist aber bestimmt mindestens einen Blick wert. Die beiden Funktionen haben in der Vergangenheit ja nicht so im Mittelpunkt des Interesses gestanden und sind daher in Solr potentiell besser gelöst als in YaCy. ;)
Low012
 
Beiträge: 2214
Registriert: Mi Jun 27, 2007 12:11 pm

Re: Lucene/Solr

Beitragvon Orbiter » Fr Nov 09, 2012 3:54 pm

in YaCy 1.2 basiert die lokale Suche nun vollständig auf Solr (!!) und nutzt alles was Solr anbietet. Für einen Kunden habe ich auch ein Synonym-Matching gemacht, das funktioniert so dass eine Synonymdatei beim Indexieren automatisch Synonymkeywords in ein Synonymfeld von Solr schreibt und dieses dann bei der Suche auch genutzt wird.
'Meinten Sie' könnten man aus so einer Synonymdatei ableiten. Das ist aber wieder was anderes als eine interne Solr-Funktion.

In YaCy 1.2 werden auch die Snippets von Solr gemacht (!) das heisst kein Nachladen oder Nachparsen mehr. Probierts mal aus, das ist nun ganz schön schnell. Die Navigatoren kommen ebenfalls aus Solr.
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Lucene/Solr

Beitragvon Jazzy » So Dez 30, 2012 5:44 pm

Orbiter hat geschrieben:..., weil es inzwischen eine 'sanfte migration' gibt die jede aus der alten gelesenen Metadaten-DB dort entfernt und nach Solr schreibt.

Grob geschätzt, wieviel Zeit benötigt denn so eine sanfte Migration für das Konvertieren von z.B. 1 Mio. Links auf einem standard Heimrechner?
Jazzy
 
Beiträge: 36
Registriert: Mo Okt 31, 2011 5:29 pm

Re: Lucene/Solr

Beitragvon Orbiter » Mi Jan 02, 2013 9:15 pm

das ist schwer zu sagen, denn diese Migration läuft ja nur ab wenn auf die alten Metadaten zugegriffen wird, und das wird nach Möglichkeit gar nicht gemacht...
Wieso, willst du das es möglichst schnell geht?
Orbiter
 
Beiträge: 5798
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main


Zurück zu Solr Support

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast