Webgraph - Nutzen (plus "citation reference")

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Webgraph - Nutzen (plus "citation reference")

Beitragvon fherb » Do Aug 20, 2015 12:36 pm

Hallo,

Ich habe jetzt eine ganze Weile gegoogelt und hier gesucht, aber keine wirkliche Antwort auf meine Fragestellung gefunden. Das solr-Schema habe ich mir angesehen. Ich weiß also, was indiziert wird, jedoch nicht, wie es später bei der Suche in der Datenbank verwendet wird:

[*] Wie groß ist bzw. welche Auswirkungen hat diese Webgraph-Datenbank auf die Suchergebnisse? Was wird im Suchergebnis "schlechter", wenn man diese Daten nicht sammelt.

[*] Da ich das Netz zu einem bestimmten Gebiet auf einem lokalen System durch ausgesuchte Crawls durchwühle und die Datenbank nicht mit Daten der freeworld-Peers vermischen möchte, läuft der Robinson-Modus. Die Bildung des DHT RWI-Index habe ich deshalb ausgeschaltet. Da in meiner Konfiguration zwei YaCys die Daten ercrawlen und solr separat installiert ist (dort gibt es dann ein weiteres YaCy als Such-Portal) und "citation reference" nur lokal in der YaCys gespeichert wird, also nicht in solr, stellt sich die Frage: Ist es sinnvoll "citation reference" abzuschalten? Nützt mir Webgraph dann besonders? Unter "Ranking" sehe ich zumindest keine Möglichkeit, die Bewertung der Daten in Webgraph zu kontrollieren (boosten).

Viele Grüße
Frank
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: Webgraph - Nutzen (plus "citation reference")

Beitragvon Orbiter » Fr Aug 28, 2015 5:44 pm

Es gibt keinen direkten Nutzen innerhalb von YaCy dafür und der Index wird auch nicht per default geschrieben. Der webgraph war eine SEO Auftragsarbeit :) ...es gibt da auch so ein Gerücht, YaCy sei unter SEO-Leuten ein Geheimtipp. Warum das so ist kann ich hier leider nicht erklären. Ich finde aber dass wir die SEO-Leute nicht als 'Gegner' ansehen sollten sondern mehr die Zusammenarbeit suchen sollten. Wir können dabei nur lernen und ggf. sogar mehr über ein besseres Ranking lernen.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Webgraph - Nutzen (plus "citation reference")

Beitragvon fherb » Mo Aug 31, 2015 4:44 pm

Alles klar. Wird also bei der YaCy-Suche nicht mit ausgewertet. Man müsste also Solr über eine eigene Engine/Frontend abfragen, um die gesammelten Ergebnisse nutzen zu können. Ok. Muss in meinem Falle nicht sein. Dann lüfte ich gleich mal meine Festplatte. 8-)

Danke und viele Grüße
Frank
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)

Re: Webgraph - Nutzen (plus "citation reference")

Beitragvon Orbiter » Mo Aug 31, 2015 4:50 pm

Also es gibt schon eine Nutzungsmöglichkeit, und zwar beim Postprocessing kann man damit den Page Rank ausrechnen. Das wird aber aus zweierlei Gründen nicht benötigt weil zum einen das Postprocessing deaktiviert ist und zum anderen der Linkgraph diese Aufgabe übernimmt. Das ist eine homebrew-Datenstruktur die wesentlich effizienter war für den Page Rank als der Solr Index.

Aber wie du schon schreibst: man könnte ein Suchinterface auf der Solr API machen, müsste man aber eine Anwendung für finden.
Orbiter
 
Beiträge: 5787
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Webgraph - Nutzen (plus "citation reference")

Beitragvon fherb » Mo Aug 31, 2015 5:08 pm

Dann liegt der Linkgraph also immer lokal in dem YaCy, mit dem Seiten gecrawlt wurden, wenn ich das richtig verstehe. Für das Ranking scheint das in meinem Fall doch nicht so wesentlich zu sein, wie ich inzwischen festgestellt habe. Da ist das eher unkritisch, wenn die Suche das nicht berücksichtigen kann sondern mit den Solr-Daten auskommen muss.

Du merkst schon: Ich guck immer wieder auf die Nutzung mit verteilten Systemen. Ursprünglich war das ein Ansatz um die "Hänger", die ich beim Crawlen mit YaCy hatte, abzufangen. Da geht dann zumindest noch die Suche in der Datenbank. Aber irgendwie ist YaCy inzwischen stabiler geworden. Entweder Ihr habt Schuld ;) oder/und (ich tippe auf UND) meine Konfiguration: Um dem eingebetteten Solr mehr RAM und Rechenzeit zu geben, bin ich gut gefahren, unter PerformanceQueues_p.html den Mindestspeicher für Local Crawl auf z.B. 200MByte zu setzen. Wird der Heap knapp, stoppt das Crawling rechtzeitig und es verbleibt genügend Speicher, damit das Indizieren und Schreiben in die Datenbank klappt. Wenn der Speicher dann wieder frei wird, gehts weiter mit Crawling. Damit läuft YaCy jetzt auch auf einem RasPi ohne Probleme. (Wenngleich es dort nach meinen Experimenten nichts bringt: Auf Suchanfragen antwortet der zu langsam. Ist eher nur als Extremtest zu gebrauchen.)

Viele Grüße!
fherb
 
Beiträge: 111
Registriert: Di Nov 26, 2013 10:02 am
Wohnort: Dresden (Germany)


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 1 Gast

cron