Detail publikace

13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE

MATĚJKA Pavel, PLCHOT Oldřich, GLEMBEK Ondřej, BURGET Lukáš, ROHDIN Johan A., ZEINALI Hossein, MOŠNER Ladislav, SILNOVA Anna, NOVOTNÝ Ondřej, DIEZ Sánchez Mireia a ČERNOCKÝ Jan. 13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE. Computer Speech and Language, roč. 2020, č. 63, s. 1-15. ISSN 0885-2308. Dostupné z: https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub
Název česky
13 let výzkumu rozpoznávání řečníka na VUT s dlouhodobou analýzou na NIST SRE
Typ
článek v časopise
Jazyk
angličtina
Autoři
URL
Abstrakt

V tomto článku představujeme stručnou historii a "dlouhodobou studii" všech důležitých technik modelování používaných při rozpoznávání řečníka nezávislého na textu, od doby kdy se VUT v Brně poprvé v roce 2006 zúčastnilo evaluace rozpoznávání řečníků NIST (SRE) - GMM  MAP, GMM MAP s přizpůsobením na kanál, JFA, i-vektoru a DNN (x-vektor). Aby se zdůraznil historický kontext, jsou techniky vyhodnocovány na všech sadách NIST SRE od roku 2004 s ohledem na čas, tj. systém je vždy trénován s využitím všech dostupných dat k danému roku evaluace. Vzhledem k tomu, že audiovizuální obsah v dnešní době dominuje internetu, tak do hodnocení našich systémů zařazujeme i datové sady Speakers In The Wild (SITW) a VOiCES. Nejen, že předkládáme srovnání technik modelování, ale také ukazujeme účinek vzorkovací frekvence.

Rok
2020
Strany
1-15
Časopis
Computer Speech and Language, roč. 2020, č. 63, ISSN 0885-2308
Vydavatel
Elsevier Science
DOI
UT WoS
000534481900003
EID Scopus
BibTeX
@ARTICLE{FITPUB12211,
   author = "Pavel Mat\v{e}jka and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Luk\'{a}\v{s} Burget and A. Johan Rohdin and Hossein Zeinali and Ladislav Mo\v{s}ner and Anna Silnova and Ond\v{r}ej Novotn\'{y} and Mireia S\'{a}nchez Diez and Jan \v{C}ernock\'{y}",
   title = "13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE",
   pages = "1--15",
   journal = "Computer Speech and Language",
   volume = 2020,
   number = 63,
   year = 2020,
   ISSN = "0885-2308",
   doi = "10.1016/j.csl.2019.101035",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12211"
}
Nahoru