Re: Term-basierte Analyse

Hier finden YaCy User Hilfe wenn was nicht funktioniert oder anders funktioniert als man dachte. Bei offensichtlichen Fehlern diese bitte gleich in die Bugs (http://bugs.yacy.net) eintragen.
Forumsregeln
In diesem Forum geht es um Benutzungsprobleme und Anfragen für Hilfe. Wird dabei ein Bug identifiziert, wird der thread zur Bearbeitung in die Bug-Sektion verschoben. Wer hier also einen Thread eingestellt hat und ihn vermisst, wird ihn sicherlich in der Bug-Sektion wiederfinden.

Term-basierte Analyse

Beitragvon surfvive » Do Mai 24, 2012 9:25 am

Hallo Zusammen,
im Rahmen eines UNI-Projektes setze ich derzeit YaCy ein, um bestimmte Websites zu indizieren. Der Hintergrund ist hierbei, dass ich eine Analyse der Inhalte dieser Seiten vornehmen möchte. Genauer ist gedacht, mittels YaCy Term-basierte Analysen vorzunehmen. Meine ersten Versuche mit YaCy (crawlen & indizieren) sehen recht vielversprechend aus. Nun stellt sich allerdings die Frage, ob ich Daten bezüglich der Termverteilung aus YaCy herausbekommen kann.
Etwas genauer stelle ich mir folgendes vor:
  • Liste aller Terme mit Angabe der Quantität über alle Seiten hinweg,
  • Liste aller Terme mit Angabe der Quantität je Site,
  • Optional: Angabe von Termen, die gemeinsam auftreten (hierbei wäre wieder die Filterung nach Seite super).

Mein bisheriger Eindruck (nach Forum/Wiki Lektüre) ist, dass das nicht out-of-the-box möglich ist. Gibt es eventuell Möglichkeiten, dass ganze mit vertretbarem Aufwand dennoch zu erreichen?
Erfahrungen mit Java, Linux, etc. bringe ich mit. Eigenarbeit (sofern nötig) sollte also nicht das Problem sein. Sachdienliche Hinweise würden das ganze natürlich erleichtern ;).

Grüße
sufvive
surfvive
 
Beiträge: 23
Registriert: Do Mai 24, 2012 9:02 am
Wohnort: Hannover

Re: Term-basierte Analyse

Beitragvon PCA42 » Do Mai 24, 2012 9:23 pm

Yacy bringt inzwischen die Möglichkeit mit, die Daten beim Crawlen nicht nur in die eigenen Datenbanken zu schreiben, sondern auch gleichzeitig eine Solr-Datenbank zu beschreiben. Zu finden ist diese Option in der Administration unter "Indexverwaltung" > "Federated Index". Wichtig ist dabei, dass du zunächst Solr selbst installierst und startest, dass ist bisher nicht Out-of-the-Box möglich. Die Solr-Datenbank enthält dabei dann auch die Volltext-Daten aller Seiten und kann dort über eine entsprechende API weiterverarbeitet werden. Wie es dort konkret weitergehen kann, wie zB die genauen Queries gestaltet werden, um die von dir benötigten Daten zu erhalten, kann ich dir leider nicht im Detail erläutern. Ich bin gerade auch erst dabei, mich mit Solr vertraut zu machen.

Hoffe, das hilft dir weiter.

René
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Term-basierte Analyse

Beitragvon PCA42 » Do Mai 24, 2012 9:23 pm

Doppeltes Posting gelöscht.
PCA42
 
Beiträge: 621
Registriert: Mi Jan 23, 2008 4:19 pm
Wohnort: @Home

Re: Term-basierte Analyse

Beitragvon Lotus » Fr Mai 25, 2012 8:50 pm

Einen Ansatzpunkt zur eigenen Codierung (falls nötig) findest du am einfachsten, wenn du eine relevante Log-Meldung nimmst, nach ihr im Quellcode suchst und den Prozess von hinten verfolgst.
Lotus
 
Beiträge: 1699
Registriert: Mi Jun 27, 2007 3:33 pm
Wohnort: Hamburg

Re: Term-basierte Analyse

Beitragvon surfvive » Sa Mai 26, 2012 8:35 am

Vielen Dank für die Vorschläge.
Über die Solr Integration bin ich auch bereits gestoßen. Zunächst habe ich gehofft, dass vermeiden zu können (neu Software, Overkill, etc.), aber im Sinne der Nachhaltigkeit wahrscheinlich die bessere Lösung :). Solr ist installiert, ich bin gespannt.

@Lotus
Vielen Dank für den Tip. Das könnte ich als Fallback nutzen :). Ich würde einfach versuchen, eine Term-Liste zu dumpen und dann mittels API Suchanfragen an YaCy stellen. Quick and Dirty, aber dürfte zunächst ausreichend sein.
surfvive
 
Beiträge: 23
Registriert: Do Mai 24, 2012 9:02 am
Wohnort: Hannover


Zurück zu Fragen und Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast