Detail publikace
Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Novotný Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Gonzalez-Rodriguez Joaquin (UAM)
Článek pojednává o analýze Deep Neural Netvork (DNN) Embeddings pro rozpoznávání jazyka v NIST LRE 2017. V této práci analyzujeme různé návrhy systému identifikace jazyka (LID) založeného na embeddingech. V našem případě embedding představuje celou promluvu (nebo segment řeči s proměnlivou dobou trvání) jako vektor s pevnou délkou (podobně jako vektor). Kromě toho si tento embedding klade za cíl zachytit informace relevantní pro cílový úkol (LID) a je získáváno trénováním hluboké neurální sítě (DNN) pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrných a standardních odchylek statistik pro každou promluvu. Po této vrstvě sdružování přidáme dvě plně propojené vrstvy, jejichž výstupy jsou použity jako embeddingy, který jsou poté modelovány Gaussovým lineárním klasifikátorem (GLC). Pro školení přidáme softmax výstupní vrstvu a trénujeme celou síť s multi-class cross-entropickým cílem rozlišovat mezi jazyky. Analyzujeme efekt použití rozšíření dat v tréninku DNN, stejně jako různé vstupní funkce a hyperparametry architektury, získávání konfigurací, které postupně zlepšovaly výkon embedding systému. Naše výsledky oznamujeme v datovém souboru NIST LRE 2017 a porovnáváme výkon embeddingů s referenčním i-vektorovým systémem. Ukazujeme, že nejlepší konfigurace našeho systému pro embeddingy překonává silný referenční i-vektorový systém o 3% relativní a toto je dále posunuto až o 10% relativní zlepšení pomocí jednoduché fúze na úrovni skóre.
@INPROCEEDINGS{FITPUB11761, author = "Alicia D\'{i}ez Lozano and Old\v{r}ich Plchot and Pavel Mat\v{e}jka and Ond\v{r}ej Novotn\'{y} and Joaquin Gonzalez-Rodriguez", title = "Analysis of DNN-based Embeddings for Language Recognition on the NIST LRE 2017", pages = "39--46", booktitle = "Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop", journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop", volume = 2018, number = 6, year = 2018, location = "Les Sables d'Olonne, FR", publisher = "International Speech Communication Association", ISSN = "2312-2846", doi = "10.21437/Odyssey.2018-6", language = "english", url = "https://www.fit.vut.cz/research/publication/11761" }