Log on: Remember me
Powered by Elgg
  • Publish Comment:

  • Timo Baumann's Pages:

    Pages
  • Timo Baumann

  • Owned communities

Timo Baumann : Home Page > LatenzChecks

Ziel: Messen, ab wann die Ergebnisse der Sphinx-Erkennung stabil und richtig, also brauchbar sind.

Leistungsmaße:

"ab wann":

  1. im Bezug auf die Audio-Zeit. -> wohl am sinnvollsten
  2. im Bezug auf die Echtzeit. -> siehe SphinxPerformance
  3. mit linguistischem Bezug (nach x Wörtern, x ms nach Wortanfang/ende, ...)

Beide Maße sind wichtig. Aus ersterer geht vor allem die Qualität der Erkennung (und Probleme mit Ambiguität) hervor, aus letzterer die Geschwindigkeit.

"stabil und richtig":

  • müssen die Ergebnisse immer richtig bleiben,
  • sollte die Zwischenergebnisfolge irgendwie geglättet werden?
  • Gewichtung von Inhaltswörtern vs. Funktionswörtern?
  • Richtigkeit nur in Bezug auf die korrekte Wortfolge oder auch aufs Alignment?
    • Wofür wäre das Alignment wichtig?
    • wie kann ich die Richtigkeit des Alignments messen? (geringe Abweichungen vom Gold Standard gibt es immer) -> der Gold Standard wird – mangels anderer Daten – automatisch erzeugt (forced alignment)

Testkorpus: Ich brauche ein mindestens mit Wortgrenzen annotiertes Korpus, das möglichst auch etwas mit unserem Anwendungsfall zu tun hat.  Das Korpus bedingt dann natürlich auch die Auswahl des Linguists und der akustischen Modelle in Sphinx.

Das Switchboard-Korpus bietet sich an: spontane Sprache, Telefonsituation, Dialoge. Es wird auch für realistisch schlechte Erkennungsraten sorgen...

Letztendlich müsste das Tool so aussehen, dass man es auch schnell für andere Korpora benutzen kann. Dann könnte es als Regression-Test regelmäßig durchlaufen und damit Ver(schlimm?)besserungen der Erkennung dokumentieren. 

Außerdem hab ich noch das TIDIGITS-Testkorpus, das ich zunächst benutze.

Vorgehen: 

  • zunächst mit einem komplexeren Linguist (als TIDIGITS :-) und einer etwas längeren Audio-Datei rumexperimentieren.
  • Alignment erzeugen und als Referenz abspeichern; dann jeweils mit dem aktuellen Alignment vergleichen
  • überlegen/rausfinden, welche Maße ich will und die im Java-Code erzeugen.
  • jederzeit die gleiche Anzahl Frames übergeben oder gezielt 100ms vom Wort bzw. ganzes Wort ohne letzte 100ms?(später)



timo, 06/04/07 01:03 (GMT)

Keyword: Latenz, Sphinx

Add a new page under this one