Detail publikace

Self-supervised speaker embeddings

STAFYLAKIS Themos, ROHDIN Johan A., PLCHOT Oldřich, MIZERA Petr a BURGET Lukáš. Self-supervised speaker embeddings. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 2863-2867. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/Interspeech_2019/pdfs/2842.pdf
Název česky
Embeddingy charakterizující mluvčího se samoučením
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Stafylakis Themos (OMILIA)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Mizera Petr (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Na rozdíl od i-vektorů nejsou embeddingy mluvčího, tak jako x-vektory, schopné využívat neoznačené promluvy, kvůli ztrátě klasifikace při trénování mluvčích. V tomto článku prozkoumáme alternativní strategii trénování, která umožní použití neoznačených promluv v trénování. Navrhujeme trénovat extraktory embeddingů mluvčího rekonstrukcí rámců cílového segmentu řeči, vzhledem k odvozenému vložení dalšího segmentu řeči stejné výpovědi. Děláme to tak, že ke standardnímu extraktoru embeddingů mluvčího připojíme síť dekodérů, které zásobujeme nejen embeddingem mluvčího, ale také odhadovanou telefonní sekvenci sekvence cílového rámce. Ztráta rekonstrukce může být použita buď jako jediný objekt, nebo může být kombinována se ztrátou klasifikace mluvčího. V druhém případě působí jako regularizátor, který podporuje zobecnění mluvčích, které nebylo během trénování vidět. Ve všech případech jsou navrhované architektury trénovány od nuly a způsobem end-to-end. Ukážeme výhody navrhovaného přístupu na "VoxCeleb and Speakers in the Wild Databases" a oproti základní linii hlásíme pozoruhodná zlepšení.


Rok
2019
Strany
2863-2867
Časopis
Proceedings of Interspeech - on-line, roč. 2019, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech
Konference
Interspeech Conference, Graz, AT
Vydavatel
International Speech Communication Association
Místo
Graz, AT
DOI
UT WoS
000831796403001
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12092,
   author = "Themos Stafylakis and A. Johan Rohdin and Old\v{r}ich Plchot and Petr Mizera and Luk\'{a}\v{s} Burget",
   title = "Self-supervised speaker embeddings",
   pages = "2863--2867",
   booktitle = "Proceedings of Interspeech",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2019,
   number = 9,
   year = 2019,
   location = "Graz, AT",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2019-2842",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12092"
}
Nahoru