Detail publikace
Challenging margin-based speaker embedding extractors by using the variational information bottleneck
Silnova Anna, M.Sc., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
rozpoznávání mluvčích, úzké hrdlo variačních informací
Extraktory zabudování mluvčích jsou obvykle trénovány pomocí a
ztráta klasifikace nad školícími mluvčími. Během posledního
několik let byla standardní ztráta softmax/cross-entropie
nahrazeny ztrátami založenými na maržích, což vede k významným
důkazy přesnosti rozpoznávání mluvčích. Motivován tím
skutečnost, že marže pouze snižuje logit cíle
mluvčího během tréninku uvažujeme pravděpodobnostní rámec
která má podobný účinek. Variační informační láhev -
krk poskytuje principiální mechanismus pro vytváření determinismu
stochastické uzly, což má za následek implicitní snížení pos-
teriér cílového reproduktoru. Experimentujeme se širokou škálou
srovnávacích testů rozpoznávání mluvčích a metod hodnocení a re-
přenést konkurenční výsledky na výsledky dosažené při současném stavu
art Additive Angular Margin loss.
@inproceedings{BUT193738,
author="Themos {Stafylakis} and Anna {Silnova} and Johan Andréas {Rohdin} and Oldřich {Plchot} and Lukáš {Burget}",
title="Challenging margin-based speaker embedding extractors by using the variational information bottleneck",
booktitle="Proceedings of Interspeech 2024",
year="2024",
journal="Proceedings of Interspeech",
volume="2024",
number="9",
pages="3220--3224",
publisher="International Speech Communication Association",
address="Kos",
doi="10.21437/Interspeech.2024-2058",
issn="1990-9772",
url="https://www.isca-archive.org/interspeech_2024/stafylakis24_interspeech.pdf"
}