Detail publikace

Normalising Flows for Speaker and Language Recognition Backend

ESPUNA Fontcuberta Aleix, PRASAD Amrutha, MOTLÍČEK Petr, MADIKERI Srikanth a SCHUEPBACH Christof. Normalising Flows for Speaker and Language Recognition Backend. In: Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop. Quebec: International Speech Communication Association, 2024, s. 74-80. Dostupné z: https://www.isca-archive.org/odyssey_2024/espuna24_odyssey.pdf

Název česky

Normalizace toků pro back-end pro rozpoznávání mluvčího a jazyka

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Espuna Fontcuberta Aleix (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Madikeri Srikanth (IDIAP)
Schuepbach Christof (armasuisse)

URL

Klíčová slova

Rozpoznávání řečníka, rozpoznávání jazyka

Abstrakt

V tomto článku se zabýváme předpokladem Gaussova rozdělení vyrobeno v PLDA, populárním back-end klasifikátoru používaném v Speaker a úkoly rozpoznávání jazyka. Studujeme normalizační toky, které umožňují používat nelineární transformace a přesto získat a model, který může explicitně reprezentovat hustotu pravděpodobnosti. The model nepředpokládá distribuci ob- servírování. To zmírňuje potřebu normalizace délky, dobře známý krok předzpracování dat používaný k posílení PLDA výkon. Demonstrujeme účinnost tohoto toku model na datových sadách NIST SRE16, LRE17 a LRE22. my ob- slouží, že při použití normalizace délky, jak tok model a PLDA dosahují podobných EER pro SRE16 (11,5 % vs 11,8 %). Pokud však není použita normalizace délky, tok vykazuje větší robustnost a nabízí lepší EER (13,1 % oproti 17,1 %). Pro LRE17 a LRE22 je nejlepší klasifikační rasy (84,2 %, 75,5 %) jsou získány modelem toku bez jakákoli potřeba normalizace délky.

Rok

2024

Strany

74-80

Sborník

Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop

Konference

Odyssey 2024: The Speaker and Language Recognition Workshop, Quebec, Canada, CA

Vydavatel

International Speech Communication Association

Místo

Quebec, CA

DOI

10.21437/odyssey.2024-11

BibTeX

@INPROCEEDINGS{FITPUB13295,
   author = "Aleix Fontcuberta Espuna and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Srikanth Madikeri and Christof Schuepbach",
   title = "Normalising Flows for Speaker and Language Recognition Backend",
   pages = "74--80",
   booktitle = "Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
   year = 2024,
   location = "Quebec, CA",
   publisher = "International Speech Communication Association",
   doi = "10.21437/odyssey.2024-11",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13295"
}