Detail publikace

13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE

MATĚJKA Pavel, PLCHOT Oldřich, GLEMBEK Ondřej, BURGET Lukáš, ROHDIN Johan A., ZEINALI Hossein, MOŠNER Ladislav, SILNOVA Anna, NOVOTNÝ Ondřej, DIEZ Sánchez Mireia a ČERNOCKÝ Jan. 13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE. Computer Speech and Language, roč. 2020, č. 63, s. 1-15. ISSN 0885-2308. Dostupné z: https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub

Název česky

13 let výzkumu rozpoznávání řečníka na VUT s dlouhodobou analýzou na NIST SRE

Typ

článek v časopise

Jazyk

angličtina

Autoři

Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Zeinali Hossein, Ph.D. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Novotný Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

Abstrakt

V tomto článku představujeme stručnou historii a "dlouhodobou studii" všech důležitých technik modelování používaných při rozpoznávání řečníka nezávislého na textu, od doby kdy se VUT v Brně poprvé v roce 2006 zúčastnilo evaluace rozpoznávání řečníků NIST (SRE) - GMM MAP, GMM MAP s přizpůsobením na kanál, JFA, i-vektoru a DNN (x-vektor). Aby se zdůraznil historický kontext, jsou techniky vyhodnocovány na všech sadách NIST SRE od roku 2004 s ohledem na čas, tj. systém je vždy trénován s využitím všech dostupných dat k danému roku evaluace. Vzhledem k tomu, že audiovizuální obsah v dnešní době dominuje internetu, tak do hodnocení našich systémů zařazujeme i datové sady Speakers In The Wild (SITW) a VOiCES. Nejen, že předkládáme srovnání technik modelování, ale také ukazujeme účinek vzorkovací frekvence.

Rok

2020

Strany

1-15

Časopis

Computer Speech and Language, roč. 2020, č. 63, ISSN 0885-2308

Vydavatel

Elsevier Science

DOI

10.1016/j.csl.2019.101035

UT WoS

000534481900003

EID Scopus

2-s2.0-85080857173

BibTeX

@ARTICLE{FITPUB12211,
   author = "Pavel Mat\v{e}jka and Old\v{r}ich Plchot and Ond\v{r}ej Glembek and Luk\'{a}\v{s} Burget and A. Johan Rohdin and Hossein Zeinali and Ladislav Mo\v{s}ner and Anna Silnova and Ond\v{r}ej Novotn\'{y} and Mireia S\'{a}nchez Diez and Jan \v{C}ernock\'{y}",
   title = "13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE",
   pages = "1--15",
   journal = "Computer Speech and Language",
   volume = 2020,
   number = 63,
   year = 2020,
   ISSN = "0885-2308",
   doi = "10.1016/j.csl.2019.101035",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12211"
}