Detail publikace

Normalising Flows for Speaker and Language Recognition Backend

ESPUNA Fontcuberta Aleix, PRASAD Amrutha, MOTLÍČEK Petr, MADIKERI Srikanth a SCHUEPBACH Christof. Normalising Flows for Speaker and Language Recognition Backend. In: Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop. Quebec: International Speech Communication Association, 2024, s. 74-80. Dostupné z: https://www.isca-archive.org/odyssey_2024/espuna24_odyssey.pdf
Název česky
Normalizace toků pro back-end pro rozpoznávání mluvčího a jazyka
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Espuna Fontcuberta Aleix (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Madikeri Srikanth (IDIAP)
Schuepbach Christof (armasuisse)
URL
Klíčová slova

Rozpoznávání řečníka, rozpoznávání jazyka

Abstrakt

V tomto článku se zabýváme předpokladem Gaussova rozdělení vyrobeno v PLDA, populárním back-end klasifikátoru používaném v Speaker a úkoly rozpoznávání jazyka. Studujeme normalizační toky, které umožňují používat nelineární transformace a přesto získat a model, který může explicitně reprezentovat hustotu pravděpodobnosti. The model nepředpokládá distribuci ob- servírování. To zmírňuje potřebu normalizace délky, dobře známý krok předzpracování dat používaný k posílení PLDA výkon. Demonstrujeme účinnost tohoto toku model na datových sadách NIST SRE16, LRE17 a LRE22. my ob- slouží, že při použití normalizace délky, jak tok model a PLDA dosahují podobných EER pro SRE16 (11,5 % vs 11,8 %). Pokud však není použita normalizace délky, tok vykazuje větší robustnost a nabízí lepší EER (13,1 % oproti 17,1 %). Pro LRE17 a LRE22 je nejlepší klasifikační rasy (84,2 %, 75,5 %) jsou získány modelem toku bez jakákoli potřeba normalizace délky.

Rok
2024
Strany
74-80
Sborník
Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop
Konference
Odyssey 2024: The Speaker and Language Recognition Workshop, Quebec, Canada, CA
Vydavatel
International Speech Communication Association
Místo
Quebec, CA
DOI
BibTeX
@INPROCEEDINGS{FITPUB13295,
   author = "Aleix Fontcuberta Espuna and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Srikanth Madikeri and Christof Schuepbach",
   title = "Normalising Flows for Speaker and Language Recognition Backend",
   pages = "74--80",
   booktitle = "Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
   year = 2024,
   location = "Quebec, CA",
   publisher = "International Speech Communication Association",
   doi = "10.21437/odyssey.2024-11",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13295"
}
Nahoru