Spracherkennung

Keine Scheu, hier darf alles gefragt und diskutiert werden. Das ist das Forum für YaCy-Anfänger. Hier kann man 'wo muss man klicken' fragen und sich über Grundlagen zur Suchmaschinentechnik unterhalten.
Forumsregeln
Hier werden Fragen beantwortet und wir versuchen die Probleme von YaCy-Newbies zu klären. Bitte beantwortete Fragen im YaCy-Wiki http://wiki.yacy.de dokumentieren!

Spracherkennung

Beitragvon hotel24 » Do Aug 14, 2014 9:05 am

Das Thema wurde zwar schon mehrmals angesprochen, aber ich habe leider nicht herauslesen können, wie die Spracherkennung tatsächlich abläuft.
Kann mir jemand mitteilen, anhand welcher Kriterien das Feld "language_s" befüllt wird?

Vielen Dank!
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: Spracherkennung

Beitragvon Orbiter » Mo Aug 18, 2014 1:05 am

es gibt ein Voting über drei mögliche Bestimmungsarten:
- language tag im html Metadaten
- statistische Analyse der Buchstabenhäufigkeiten (hierzu gibt es Statistiken in YaCy die aus Wikipediaartikeln abgezogen wurden)
- top-level-Domäne (die nur zur Hilfe gezogen wird wenn die anderen zwei Optionen nicht auswertbar sind).
Orbiter
 
Beiträge: 5769
Registriert: Di Jun 26, 2007 10:58 pm
Wohnort: Frankfurt am Main

Re: Wiki-Artikel "Spracherkennung" erstellt

Beitragvon flegno » Mo Aug 18, 2014 4:19 am

Orbiter hat geschrieben:es gibt ein Voting über drei mögliche Bestimmungsarten:
...
Habe das, was ich verstanden habe, im Wiki-Artikel Spracherkennung zusammengefasst. Bitte korrigieren, falls unvollständig oder nicht alles stimmt.
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: Spracherkennung

Beitragvon hotel24 » Mi Aug 20, 2014 10:28 am

vielen Dank für die Antwort, jetzt ist alles klar :-)

Eine ergänzende Frage noch dazu. Warum holt sich YaCy bei zb http://www.fliegende-koeche.at/ oder http://www.flugfeld-aspern.at/ die englische Version der Seite?
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: Spracherkennung

Beitragvon hotel24 » Fr Aug 22, 2014 10:40 am

Hängt das Problem evtl. mit der Einstellung "crawler.http.acceptLanguage : en-us,en;q=0.5" in /ConfigProperties_p.html zusammen?

Wenn ja, warum werden überhaupt deutschsprachige Webseiten mit dieser Einstellung indiziert?

Was müsste eingestellt werden, dass jede Sprache akzeptiert wird und defaultmäßig immer jene genommen wird, die die Website defaultmäßig anzeigt?

Danke und LG
hotel24
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: Spracherkennung

Beitragvon flegno » Fr Aug 22, 2014 3:15 pm

Hallo hotel24,
  1. hotel24 hat geschrieben:Eine ergänzende Frage noch dazu. Warum holt sich YaCy bei zb http://www.fliegende-koeche.at/ oder http://www.flugfeld-aspern.at/ die englische Version der Seite?
  2. hotel24 hat geschrieben:Hängt das Problem evtl. mit der Einstellung "crawler.http.acceptLanguage : en-us,en;q=0.5" in /ConfigProperties_p.html zusammen?
    Wenn du für fliegende-koeche.at und/oder flugfeld-aspern.at in der ConfigProperties_p.html mit entsprechenden Werten alternativ zur Einstellung "crawler.http.acceptLanguage : en-us,en;q=0.5" deine Vermutungen prüfen könntest, dann ist die Fragestellung etwas enger gefasst und man könnte sich mit der Frage
  3. hotel24 hat geschrieben:Was müsste eingestellt werden, dass jede Sprache akzeptiert wird und defaultmäßig immer jene genommen wird, die die Website defaultmäßig anzeigt?
    befassen. Wenn du deine Testergebnisse im Wiki-Artikel Spracherkennung public machst, dann profitieren auch andere von deinem Test :) . Und die Bild-Captchas beim Speichern im Wiki zu lösen macht richtig Spaß - ein Erfolgserlebnis ist garantiert :P!
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm

Re: Spracherkennung

Beitragvon hotel24 » Mo Aug 25, 2014 2:31 pm

ich habe nun ein paar Einstellungen getestet:

crawler.http.acceptLanguage : en-us,en;q=0.5
http://www.fliegende-koeche.at --> language_s=en
http://www.flugfeld-aspern.at --> language_s=en

crawler.http.acceptLanguage : de
http://www.fliegende-koeche.at --> language_s=de
http://www.flugfeld-aspern.at --> language_s=de

crawler.http.acceptLanguage :
http://www.fliegende-koeche.at --> language_s=en
http://www.flugfeld-aspern.at --> language_s=de

crawler.http.acceptLanguage : de,en
http://www.fliegende-koeche.at --> language_s=de
http://www.flugfeld-aspern.at --> language_s=de

crawler.http.acceptLanguage : en,de
http://www.fliegende-koeche.at --> language_s=en
http://www.flugfeld-aspern.at --> language_s=en

Darüber hinaus habe ich noch weitere Seiten in anderen Sprachen getestet.

Für mich ergibt sich insgesamt nun folgendes Bild:
* egal ob und was in crawler.http.acceptLanguage eingetragen ist, es werden alle Seiten in allen Sprachen indiziert
* Die Angaben in crawler.http.acceptLanguage kommen dann zu tragen, wenn mehrere Sprachversionen einer Seite vorliegen. Jenachdem welche Sprache der YaCy-Betreiber bevorzugt, lässt sich hier eine Priorität festlegen.
* Wenn jene Sprachversion indiziert werden soll, die der Webseiten-Betreiber defaultmäßig ausliefert (also wenn der Browser keine Headerinformationen zur bevorzugten Sprache zur Webseite schickt), dann ist das Feld crawler.http.acceptLanguage leer zu lassen.

Sind meine Aussagen richtig?
hotel24
 
Beiträge: 52
Registriert: Di Jan 22, 2013 1:17 pm

Re: Spracherkennung

Beitragvon flegno » Mo Aug 25, 2014 4:23 pm

hotel24 hat geschrieben:Sind meine Aussagen richtig?
Das sind deine Testergebnisse und diese sind somit richtig - für alle, wer diesen Testergebnissen glaubt :) . Habe mit Rücksicht auf Suche/Indizierung einschränken das alles im Wiki-Artikel Bewertungskriterien zusammengefasst :P .
flegno
 
Beiträge: 232
Registriert: So Aug 17, 2014 4:23 pm


Zurück zu Hilfe für Einsteiger und Anwender

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast

cron