Detail publikace
Self-supervised speaker embeddings
Rohdin Johan A., Dr. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Mizera Petr (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Na rozdíl od i-vektorů nejsou embeddingy mluvčího, tak jako x-vektory, schopné využívat neoznačené promluvy, kvůli ztrátě klasifikace při trénování mluvčích. V tomto článku prozkoumáme alternativní strategii trénování, která umožní použití neoznačených promluv v trénování. Navrhujeme trénovat extraktory embeddingů mluvčího rekonstrukcí rámců cílového segmentu řeči, vzhledem k odvozenému vložení dalšího segmentu řeči stejné výpovědi. Děláme to tak, že ke standardnímu extraktoru embeddingů mluvčího připojíme síť dekodérů, které zásobujeme nejen embeddingem mluvčího, ale také odhadovanou telefonní sekvenci sekvence cílového rámce. Ztráta rekonstrukce může být použita buď jako jediný objekt, nebo může být kombinována se ztrátou klasifikace mluvčího. V druhém případě působí jako regularizátor, který podporuje zobecnění mluvčích, které nebylo během trénování vidět. Ve všech případech jsou navrhované architektury trénovány od nuly a způsobem end-to-end. Ukážeme výhody navrhovaného přístupu na "VoxCeleb and Speakers in the Wild Databases" a oproti základní linii hlásíme pozoruhodná zlepšení.
@INPROCEEDINGS{FITPUB12092, author = "Themos Stafylakis and A. Johan Rohdin and Old\v{r}ich Plchot and Petr Mizera and Luk\'{a}\v{s} Burget", title = "Self-supervised speaker embeddings", pages = "2863--2867", booktitle = "Proceedings of Interspeech", journal = "Proceedings of Interspeech - on-line", volume = 2019, number = 9, year = 2019, location = "Graz, AT", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2019-2842", language = "english", url = "https://www.fit.vut.cz/research/publication/12092" }