Detail publikace
Normalising Flows for Speaker and Language Recognition Backend
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Madikeri Srikanth (IDIAP)
Schuepbach Christof (armasuisse)
Rozpoznávání řečníka, rozpoznávání jazyka
V tomto článku se zabýváme předpokladem Gaussova rozdělení vyrobeno v PLDA, populárním back-end klasifikátoru používaném v Speaker a úkoly rozpoznávání jazyka. Studujeme normalizační toky, které umožňují používat nelineární transformace a přesto získat a model, který může explicitně reprezentovat hustotu pravděpodobnosti. The model nepředpokládá distribuci ob- servírování. To zmírňuje potřebu normalizace délky, dobře známý krok předzpracování dat používaný k posílení PLDA výkon. Demonstrujeme účinnost tohoto toku model na datových sadách NIST SRE16, LRE17 a LRE22. my ob- slouží, že při použití normalizace délky, jak tok model a PLDA dosahují podobných EER pro SRE16 (11,5 % vs 11,8 %). Pokud však není použita normalizace délky, tok vykazuje větší robustnost a nabízí lepší EER (13,1 % oproti 17,1 %). Pro LRE17 a LRE22 je nejlepší klasifikační rasy (84,2 %, 75,5 %) jsou získány modelem toku bez jakákoli potřeba normalizace délky.
@INPROCEEDINGS{FITPUB13295, author = "Aleix Fontcuberta Espuna and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Srikanth Madikeri and Christof Schuepbach", title = "Normalising Flows for Speaker and Language Recognition Backend", pages = "74--80", booktitle = "Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop", year = 2024, location = "Quebec, CA", publisher = "International Speech Communication Association", doi = "10.21437/odyssey.2024-11", language = "english", url = "https://www.fit.vut.cz/research/publication/13295" }