Detail publikace
Challenging margin-based speaker embedding extractors by using the variational information bottleneck
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
rozpoznávání mluvčích, úzké hrdlo variačních informací
Extraktory zabudování mluvčích jsou obvykle trénovány pomocí a ztráta klasifikace nad školícími mluvčími. Během posledního několik let byla standardní ztráta softmax/cross-entropie nahrazeny ztrátami založenými na maržích, což vede k významným důkazy přesnosti rozpoznávání mluvčích. Motivován tím skutečnost, že marže pouze snižuje logit cíle mluvčího během tréninku uvažujeme pravděpodobnostní rámec která má podobný účinek. Variační informační láhev - krk poskytuje principiální mechanismus pro vytváření determinismu stochastické uzly, což má za následek implicitní snížení pos- teriér cílového reproduktoru. Experimentujeme se širokou škálou srovnávacích testů rozpoznávání mluvčích a metod hodnocení a re- přenést konkurenční výsledky na výsledky dosažené při současném stavu art Additive Angular Margin loss.
@INPROCEEDINGS{FITPUB13319, author = "Themos Stafylakis and Anna Silnova and A. Johan Rohdin and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget", title = "Challenging margin-based speaker embedding extractors by using the variational information bottleneck", pages = "3220--3224", booktitle = "Proceedings of Interspeech 2024", journal = "Proceedings of Interspeech - on-line", volume = 2024, number = 9, year = 2024, location = "Kos, GR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2024-2058", language = "english", url = "https://www.fit.vut.cz/research/publication/13319" }