Detail publikace
On the use of DNN Autoencoder for Robust Speaker Recognition
Matějka Pavel, Ing., Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
speaker recognition, signal enhancement, autoencoder
V tomto článku předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odzvučení a odhlučení. Cílovou aplikací je robustní systém rozpoznávání mluvčího. Začali jsme rozšířením Fisherovy databáze o uměle hlučná a dozvučená data a vycvičili jsme autoencoder, aby mapoval hlučnou a dozvukovou řeč do své čisté verze. Používáme autoencoder jako krok předzpracování pro nejmodernější textově nezávislý systém rozpoznávání mluvčích. Výsledky porovnáváme s čistým vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Představujeme podrobnou analýzu s různými podmínkami NIST SRE 2010, PRISM a uměle poškozeným telefonním stavem NIST SRE 2010. Došli jsme k závěru, že navrhované předzpracování významně převyšuje základní linii a že tuto techniku lze použít k vybudování robustního systému rozpoznávání mluvčích pro dozvuk a hlučná data.
@techreport{BUT161935,
author="Ondřej {Novotný} and Pavel {Matějka} and Oldřich {Plchot} and Ondřej {Glembek}",
title="On the use of DNN Autoencoder for Robust Speaker Recognition",
year="2018",
publisher="Faculty of Information Technology BUT",
address="Brno",
pages="1--5",
url="https://www.fit.vut.cz/research/publication/11855/"
}