Detail publikace

Analysis and Optimization of Bottleneck Features for Speaker Recognition

LOZANO Díez Alicia, SILNOVA Anna, MATĚJKA Pavel, GLEMBEK Ondřej, PLCHOT Oldřich, PEŠÁN Jan, BURGET Lukáš a GONZALEZ-RODRIGUEZ Joaquin. Analysis and Optimization of Bottleneck Features for Speaker Recognition. In: Proceedings of Odyssey 2016. Bilbao: International Speech Communication Association, 2016, s. 352-357. ISSN 2312-2846. Dostupné z: http://www.odyssey2016.org/papers/pdfs_stamped/54.pdf
Název česky
Analýza a optimalizace bottle-neck parametrů pro rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Lozano Díez Alicia (UAM)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Pešán Jan, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Gonzalez-Rodriguez Joaquin (UAM)
URL
Abstrakt

V poslední době se funkce rozpoznávání překážek na bázi Deep Neural Network (DNN) ukázaly jako velmi účinné při rozpoznávání mluvčích na základě i-vektorů. Extrakce funkce úzkého místa je však obvykle plně optimalizována pro úlohu řeči, nikoli pro rozpoznávání řečníků. V tomto článku zkoumáme, zda DNN suboptimální pro rozpoznávání řeči mohou poskytnout lepší překážkové funkce pro rozpoznávání řečníků. Experimentujeme s různými funkcemi optimalizovanými pro rozpoznávání řeči nebo mluvčích jako vstupu do DNN. Experimentujeme také s nedostatečně vyškoleným DNN, kde bylo školení přerušeno před úplnou konvergencí cíle rozpoznávání řeči. Kromě toho analyzujeme účinek normalizace funkcí na vstupu a / nebo na výstupu extrakce funkcí úzkého hrdla, abychom zjistili, jak to ovlivní výkon systému rozpoznávání konečného mluvčího. Vyhodnotili jsme systémy v SRE10, podmínka 5, ženská úloha. Výsledky ukazují, že nejlepší konfigurace DNN, pokud jde o přesnost telefonu, neznamená lepší výkon systému konečného rozpoznávání mluvčích. Nakonec porovnáme výkon funkcí úzkých míst a standardní funkce MFCC v systému rozpoznávání mluvčích i-vector / PLDA. Nejlepší funkce úzkého profilu přinášejí až 37% relativního zlepšení, pokud jde o EER.

Rok
2016
Strany
352-357
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop, roč. 2016, č. 6, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2016
Konference
Odyssey 2016, Bilbao, ES
Vydavatel
International Speech Communication Association
Místo
Bilbao, ES
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11219,
   author = "Alicia D\'{i}ez Lozano and Anna Silnova and Pavel Mat\v{e}jka and Ond\v{r}ej Glembek and Old\v{r}ich Plchot and Jan Pe\v{s}\'{a}n and Luk\'{a}\v{s} Burget and Joaquin Gonzalez-Rodriguez",
   title = "Analysis and Optimization of Bottleneck Features for Speaker Recognition",
   pages = "352--357",
   booktitle = "Proceedings of Odyssey 2016",
   journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop",
   volume = 2016,
   number = 06,
   year = 2016,
   location = "Bilbao, ES",
   publisher = "International Speech Communication Association",
   ISSN = "2312-2846",
   doi = "10.21437/Odyssey.2016-51",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11219"
}
Nahoru