Detail publikace

On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction

WANG Shuai, ROHDIN Johan A., BURGET Lukáš, PLCHOT Oldřich, QIAN Yanmin, YU Kai a ČERNOCKÝ Jan. On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 1148-1152. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/Interspeech_2019/pdfs/3036.pdf

Název česky

O využití fonetické informace pro na textu nezávislou extrakci embeddingů popisujících řečníka

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Wang Shuai (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Qian Yanmin (SJTU)
Yu Kai (SJTU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

Abstrakt

Embeddingy extrahované hlubokými neuronovými sítěmi se staly nejmodernější reprezentací promluvy v systémech rozpoznávání mluvčího. Nedávno se ukázalo, že začlenění fonetické informace na úrovni rámce do vkládacího extraktoru může zlepšit výkon rozpoznávání mluvčího. Na druhou stranu, v konečném embeddingu jsou fonetické informace jen dalším zdrojem variability relace, který může být škodlivý pro úlohu rozpoznávání mluvčích nezávislou na textu. To naznačuje, že na úrovni vkládání by měly být fonetické informace spíše potlačovány než podporovány. Abychom ověřili tuto hypotézu, provedeme několik experimentů, které podporují nebo potlačují fonetické informace v různých fázích sítě. Naše experimenty potvrzují, že multitaskingové učení je přínosné, pokud je aplikováno ve fázi rámce sítě, zatímco kontradiktorní školení je výhodné, pokud je používáno ve fázi segmentu sítě. Kombinace těchto dvou přístupů dále zlepšuje výkon, což vede ke stejné chybovosti 3,17% v datové sadě VoxCeleb.

Rok

2019

Strany

1148-1152

Časopis

Proceedings of Interspeech - on-line, roč. 2019, č. 9, ISSN 1990-9772

Sborník

Proceedings of Interspeech

Konference

Interspeech Conference, Graz, AT

Vydavatel

International Speech Communication Association

Místo

Graz, AT

DOI

10.21437/Interspeech.2019-3036

UT WoS

000831796401061

EID Scopus

2-s2.0-85074688607

BibTeX

@INPROCEEDINGS{FITPUB12087,
   author = "Shuai Wang and A. Johan Rohdin and Luk\'{a}\v{s} Burget and Old\v{r}ich Plchot and Yanmin Qian and Kai Yu and Jan \v{C}ernock\'{y}",
   title = "On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction",
   pages = "1148--1152",
   booktitle = "Proceedings of Interspeech",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2019,
   number = 9,
   year = 2019,
   location = "Graz, AT",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2019-3036",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12087"
}