Detail publikace

Temporal processing for feature extraction in speech recognition, habilitation thesis

ČERNOCKÝ, J. Temporal processing for feature extraction in speech recognition, habilitation thesis. Brno: 2002.
Název česky
Časové zpracování pro výpočet příznaků v rozpoznávání řeči, habilitační práce
Typ
habilitační práce
Jazyk
anglicky
Autoři
URL
Klíčová slova

speech recognition, feature extraction

Abstrakt

Rozpoznávání řeči je rychle se rozvíjejícím oborem s množstvím aplikací v
telekomunikacích (zvláště mobilních), automobilovém průmyslu, spotřební
elektronice, vojenské a bezpečnostní oblasti, atd. Rozpoznávače řeči se
klasicky skládají ze tří základních bloků: výpočtu příznaků
(parametrizace), akustického srovnávání a jazykového modelu. Zatímco
poslední dva bloky jsou trénovány na datech (akustika na anotovaných
řečových databázích, LM na korpusech textových dat), parametrizace je
často zanedbávána a na vstupech rozpoznávačů najdeme nejčastěji
mel-frekvenční cepstrální koeficienty (MFCC). Tato práce se zaměřuje na
dvě techniky, které by měly parametrizaci zkvalitnit. První z nich je
časová filtrace trajektorií parametrů pomocí LDA-filtrů. Tyto jsou
získány z řečových dat pomocí Lineární diskriminační analýzy (LDA). V
práci ukážeme, že tato technika zlepšuje úspěšnost rozpoznávače při
rozpoznávání izolovaných českých slov. Potvrdili jsme tak předchozí
výsledky na americké angličtině, získané naší partnerskou skupinou na
OGI Portland. Druhá část práce se zaměřuje na ``revolučnější'' přístup k
parametrizaci pomocí časových trajektorií (TRAPs). Základ této metody
byl rovněž položen skupinou na OGI a experimenty popsané v této práci
byly provedeny během autorova sedmiměsíčního pobytu v Portlandu. I když
jsme prokázali, že TRAP-příznaky jsou srovnatelné s MFCC pouze na
rozpoznávání omezeného souboru slov, věříme, že kombinace zpracování v
jednotlivých kmitočtových pásmech s neuronovými sítěmi nabude v
následující dekádě na důležitosti a žs se tyto techniky stanou
standardními bloky v parametrizaci řeči. K oběma popsaným metodám jsou
připojeny kapitoly obsahující závěry a popisující současný stav řešení
problematiky a další výzkumné směry.

Anotace
Rok
2002
Strany
80
Místo
Brno
BibTeX
@misc{BUT67489,
  author="Jan {Černocký}",
  title="Temporal processing for feature extraction in speech recognition, habilitation thesis",
  year="2002",
  pages="80",
  address="Brno",
  url="http://www.fit.vutbr.cz/~cernocky/publi/2002/habil.pdf",
  note="habilitation thesis"
}
Nahoru