Detail publikace

Challenging margin-based speaker embedding extractors by using the variational information bottleneck

STAFYLAKIS Themos, SILNOVA Anna, ROHDIN Johan A., PLCHOT Oldřich a BURGET Lukáš. Challenging margin-based speaker embedding extractors by using the variational information bottleneck. In: Proceedings of Interspeech 2024. Kos: International Speech Communication Association, 2024, s. 3220-3224. ISSN 1990-9772. Dostupné z: https://www.isca-archive.org/interspeech_2024/stafylakis24_interspeech.pdf
Název česky
Extraktory embeddingů řečníků pro náročné okrajové podmínky s variačním informačním bottleneckem
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Stafylakis Themos (OMILIA)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

rozpoznávání mluvčích, úzké hrdlo variačních informací

Abstrakt

Extraktory zabudování mluvčích jsou obvykle trénovány pomocí a ztráta klasifikace nad školícími mluvčími. Během posledního několik let byla standardní ztráta softmax/cross-entropie nahrazeny ztrátami založenými na maržích, což vede k významným důkazy přesnosti rozpoznávání mluvčích. Motivován tím skutečnost, že marže pouze snižuje logit cíle mluvčího během tréninku uvažujeme pravděpodobnostní rámec která má podobný účinek. Variační informační láhev - krk poskytuje principiální mechanismus pro vytváření determinismu stochastické uzly, což má za následek implicitní snížení pos- teriér cílového reproduktoru. Experimentujeme se širokou škálou srovnávacích testů rozpoznávání mluvčích a metod hodnocení a re- přenést konkurenční výsledky na výsledky dosažené při současném stavu art Additive Angular Margin loss.

Rok
2024
Strany
3220-3224
Časopis
Proceedings of Interspeech - on-line, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2024
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos, GR
DOI
BibTeX
@INPROCEEDINGS{FITPUB13319,
   author = "Themos Stafylakis and Anna Silnova and A. Johan Rohdin and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget",
   title = "Challenging margin-based speaker embedding extractors by using the variational information bottleneck",
   pages = "3220--3224",
   booktitle = "Proceedings of Interspeech 2024",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2024,
   number = 9,
   year = 2024,
   location = "Kos, GR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2024-2058",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13319"
}
Nahoru