Detail publikace
13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Zeinali Hossein, Ph.D. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Novotný Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V tomto článku představujeme stručnou historii a "dlouhodobou studii" všech důležitých technik modelování používaných při rozpoznávání řečníka nezávislého na textu, od doby kdy se VUT v Brně poprvé v roce 2006 zúčastnilo evaluace rozpoznávání řečníků NIST (SRE) - GMM MAP, GMM MAP s přizpůsobením na kanál, JFA, i-vektoru a DNN (x-vektor). Aby se zdůraznil historický kontext, jsou techniky vyhodnocovány na všech sadách NIST SRE od roku 2004 s ohledem na čas, tj. systém je vždy trénován s využitím všech dostupných dat k danému roku evaluace. Vzhledem k tomu, že audiovizuální obsah v dnešní době dominuje internetu, tak do hodnocení našich systémů zařazujeme i datové sady Speakers In The Wild (SITW) a VOiCES. Nejen, že předkládáme srovnání technik modelování, ale také ukazujeme účinek vzorkovací frekvence.
@ARTICLE{FITPUB12211, author = "Pavel Mat\v{e}jka and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Luk\'{a}\v{s} Burget and A. Johan Rohdin and Hossein Zeinali and Ladislav Mo\v{s}ner and Anna Silnova and Ond\v{r}ej Novotn\'{y} and Mireia S\'{a}nchez Diez and Jan \v{C}ernock\'{y}", title = "13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE", pages = "1--15", journal = "Computer Speech and Language", volume = 2020, number = 63, year = 2020, ISSN = "0885-2308", doi = "10.1016/j.csl.2019.101035", language = "english", url = "https://www.fit.vut.cz/research/publication/12211" }