Detail publikace

Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017

LOZANO Díez Alicia, PLCHOT Oldřich, MATĚJKA Pavel, NOVOTNÝ Ondřej a GONZALEZ-RODRIGUEZ Joaquin. Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017. In: Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop. Les Sables d'Olonne: International Speech Communication Association, 2018, s. 39-46. ISSN 2312-2846. Dostupné z: https://www.isca-speech.org/archive/Odyssey_2018/pdfs/42.pdf
Název česky
Analýza DNN Embeddings pro rozpoznávání jazyka v NIST LRE 2017
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Lozano Díez Alicia (UAM)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Novotný Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Gonzalez-Rodriguez Joaquin (UAM)
URL
Abstrakt

Článek pojednává o analýze Deep Neural Netvork (DNN) Embeddings pro rozpoznávání jazyka v NIST LRE 2017. V této práci analyzujeme různé návrhy systému identifikace jazyka (LID) založeného na embeddingech. V našem případě embedding představuje celou promluvu (nebo segment řeči s proměnlivou dobou trvání) jako vektor s pevnou délkou (podobně jako vektor). Kromě toho si tento embedding klade za cíl zachytit informace relevantní pro cílový úkol (LID) a je získáváno trénováním hluboké neurální sítě (DNN) pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrných a standardních odchylek statistik pro každou promluvu. Po této vrstvě sdružování přidáme dvě plně propojené vrstvy, jejichž výstupy jsou použity jako embeddingy, který jsou poté modelovány Gaussovým lineárním klasifikátorem (GLC). Pro školení přidáme softmax výstupní vrstvu a trénujeme celou síť s multi-class cross-entropickým cílem rozlišovat mezi jazyky. Analyzujeme efekt použití rozšíření dat v tréninku DNN, stejně jako různé vstupní funkce a hyperparametry architektury, získávání konfigurací, které postupně zlepšovaly výkon embedding systému. Naše výsledky oznamujeme v datovém souboru NIST LRE 2017 a porovnáváme výkon embeddingů s referenčním i-vektorovým systémem. Ukazujeme, že nejlepší konfigurace našeho systému pro embeddingy překonává silný referenční i-vektorový systém o 3% relativní a toto je dále posunuto až o 10% relativní zlepšení pomocí jednoduché fúze na úrovni skóre.

Rok
2018
Strany
39-46
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop, roč. 2018, č. 6, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop
Konference
Odyssey 2018, Les Sables d'Olonne, France, FR
Vydavatel
International Speech Communication Association
Místo
Les Sables d'Olonne, FR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11761,
   author = "Alicia D\'{i}ez Lozano and Old\v{r}ich Plchot and Pavel Mat\v{e}jka and Ond\v{r}ej Novotn\'{y} and Joaquin Gonzalez-Rodriguez",
   title = "Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017",
   pages = "39--46",
   booktitle = "Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop",
   journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop",
   volume = 2018,
   number = 6,
   year = 2018,
   location = "Les Sables d'Olonne, FR",
   publisher = "International Speech Communication Association",
   ISSN = "2312-2846",
   doi = "10.21437/Odyssey.2018-6",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11761"
}
Nahoru