Detail publikace
Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge
Boulianne Gilles (CRIM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Dahmane Mohamed (CRIM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Lalonde Marc (CRIM)
Lozano Díez Alicia, Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Mizera Petr (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Noiseux Cédric (CRIM)
Monteiro Joao (CRIM)
Novotný Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Slavíček Josef (Phonexia)
Stafylakis Themos (OMILIA)
St-Charles Pierre-Luc (CRIM)
Wang Shuai (UPGM FIT VUT)
Zeinali Hossein, Ph.D. (UPGM FIT VUT)
Předkládáme ucelený popis a analýzu společného podání týmu ABC do evaluace NIST SRE 2019 ve složení VUT v Brně, CRIM, Phonexia, Omilia a UAM. Soustředíme se na výzvy, které vyvstaly během vývoje, a analyzujeme výsledky získané na hodnotících datech a na našich vývojových sadách. Podmínka konverzační telefonní řeči (CMN2) je pro současné nejmodernější systémy náročná, zejména kvůli nesouladu jazyků mezi tréninkovými a testovacími daty. Ukazujeme, že kombinace nesouladu s doménou, přizpůsobení backendu a normalizace skóre může tento nesoulad zmírnit. Ve stavu VAST prokazujeme důležitost nasazení diarizace pro vypořádání se s promluvami vícero mluvčích a zásadní vylepšení, která lze dosáhnout kombinací zvukových a vizuálních modalit.
@INPROCEEDINGS{FITPUB12292, author = "Jahangir Alam and Gilles Boulianne and Luk\'{a}\v{s} Burget and Mohamed Dahmane and Mireia S\'{a}nchez Diez and Ond\v{r}ej Glembek and Marc Lalonde and Alicia D\'{i}ez Lozano and Pavel Mat\v{e}jka and Petr Mizera and Ladislav Mo\v{s}ner and C\'{e}dric Noiseux and Joao Monteiro and Ond\v{r}ej Novotn\'{y} and Old\v{r}ich Plchot and A. Johan Rohdin and Anna Silnova and Josef Slav\'{i}\v{c}ek and Themos Stafylakis and Pierre-Luc St-Charles and Shuai Wang and Hossein Zeinali", title = "Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge", pages = "289--295", booktitle = "Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop", journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop", volume = 2020, number = 11, year = 2020, location = "Tokyo, JP", publisher = "International Speech Communication Association", ISSN = "2312-2846", doi = "10.21437/Odyssey.2020-41", language = "english", url = "https://www.fit.vut.cz/research/publication/12292" }