Detail publikace
Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
V této práci předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odcizení a odcizení. Aplikace Thetarget je robustní systém ověřování reproduktorů (SV). Náš přístup začínáme pečlivě navrhovat proces rozšiřování dat tak, aby pokrýval širokou škálu akustických podmínek a získával bohatá data školení pro různé komponenty našeho SV systému. Rozšiřujeme několik známých databází používaných v SV o uměle notifikovaná a dozvučená data a my použijte je k tréninku adenizujícího autoenkodéru (mapování hlučné a dozvukové řeči na jeho čistou verzi) a extraktoru x-vektorů, který je v současné době v SV považován za nejmodernější. Později používáme autoencoder jako krok předzpracování textově nezávislého SV sys-tem. Porovnáme dosažené výsledky s vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Předkládáme podrobnou analýzu s různými podmínkami NIST SRE 2010, 2016, PRISM as re-přenášenými daty. Zjišťujeme, že navrhované předzpracování může významně zlepšit jak základní linie i-vektorů, tak x-vektorů a že tato technika může být použita k vytvoření robustního SV systému pro různé cílové domény.
@ARTICLE{FITPUB12039, author = "Ond\v{r}ej Novotn\'{y} and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Jan \v{C}ernock\'{y} and Luk\'{a}\v{s} Burget", title = "Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition", pages = "403--421", journal = "Computer Speech and Language", volume = 2019, number = 58, year = 2019, ISSN = "0885-2308", doi = "10.1016/j.csl.2019.06.004", language = "english", url = "https://www.fit.vut.cz/research/publication/12039" }