Detail publikace
Analysis and Optimization of Bottleneck Features for Speaker Recognition
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Pešán Jan, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Gonzalez-Rodriguez Joaquin (UAM)
V poslední době se funkce rozpoznávání překážek na bázi Deep Neural Network (DNN) ukázaly jako velmi účinné při rozpoznávání mluvčích na základě i-vektorů. Extrakce funkce úzkého místa je však obvykle plně optimalizována pro úlohu řeči, nikoli pro rozpoznávání řečníků. V tomto článku zkoumáme, zda DNN suboptimální pro rozpoznávání řeči mohou poskytnout lepší překážkové funkce pro rozpoznávání řečníků. Experimentujeme s různými funkcemi optimalizovanými pro rozpoznávání řeči nebo mluvčích jako vstupu do DNN. Experimentujeme také s nedostatečně vyškoleným DNN, kde bylo školení přerušeno před úplnou konvergencí cíle rozpoznávání řeči. Kromě toho analyzujeme účinek normalizace funkcí na vstupu a / nebo na výstupu extrakce funkcí úzkého hrdla, abychom zjistili, jak to ovlivní výkon systému rozpoznávání konečného mluvčího. Vyhodnotili jsme systémy v SRE10, podmínka 5, ženská úloha. Výsledky ukazují, že nejlepší konfigurace DNN, pokud jde o přesnost telefonu, neznamená lepší výkon systému konečného rozpoznávání mluvčích. Nakonec porovnáme výkon funkcí úzkých míst a standardní funkce MFCC v systému rozpoznávání mluvčích i-vector / PLDA. Nejlepší funkce úzkého profilu přinášejí až 37% relativního zlepšení, pokud jde o EER.
@INPROCEEDINGS{FITPUB11219, author = "Alicia D\'{i}ez Lozano and Anna Silnova and Pavel Mat\v{e}jka and Ond\v{r}ej Glembek and Old\v{r}ich Plchot and Jan Pe\v{s}\'{a}n and Luk\'{a}\v{s} Burget and Joaquin Gonzalez-Rodriguez", title = "Analysis and Optimization of Bottleneck Features for Speaker Recognition", pages = "352--357", booktitle = "Proceedings of Odyssey 2016", journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop", volume = 2016, number = 06, year = 2016, location = "Bilbao, ES", publisher = "International Speech Communication Association", ISSN = "2312-2846", doi = "10.21437/Odyssey.2016-51", language = "english", url = "https://www.fit.vut.cz/research/publication/11219" }