Detail předmětu
Zpracování řečových signálů
ZRE Ak. rok 2011/2012 letní semestr 5 kreditů
Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.
Garant předmětu
Jazyk výuky
Zakončení
Rozsah
- 26 hod. přednášky
- 2 hod. cvičení
- 12 hod. pc laboratoře
- 12 hod. projekty
Zajišťuje ústav
Získané dovednosti, znalosti a kompetence z předmětu
Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.
Cíle předmětu
Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Požadované prerekvizitní znalosti a dovednosti
Nejsou žádné prerekvizity.
Literatura studijní
- Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0
- Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7
Literatura referenční
- Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0
Osnova přednášek
- Úvod, aplikace zpracování řeči, relevatní vědní obory, informační obsah.
- Číslicové zpracování řečových signálů
- Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
- Úvod do fonetiky, mezinárodní normy pro označování fonémů.
- Předzpracování a základní parametry.
- Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP.
- Cepstrální analýza, Mel-frekvenční cepstrum
- Určování základního tónu hlasu
- Kódování řeči.
- Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
- Syntéza řeči
- Software a knihovny pro zpracování řeči.
Osnova numerických cvičení
- Paramatrizace, DTW, HMM.
- Prezentace projektů.
Osnova počítačových cvičení
- V laboratořích (kromě poslední) je používán Matlab.
- Rámce, okna, spektrum, předzpracování.
- Lineární predikce (LPC).
- Určování základního tónu.
- Kódování.
- Rozpoznávání - Dynamic time Warping (DTW).
- Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).
Průběžná kontrola studia
Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.
Kontrolovaná výuka
- půlsemestrální test 14b
- projekty 30b
- presentace výsledků na poč. cvičeních 6b