Detail publikace
Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations
Mošner Ladislav, Ing. (UPGM FIT VUT)
Kakouros Sofoklis ( neznámá)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Samostatné učení reprezentací řeči z velkého množství neoznačených dat umožnilo dosáhnout nejlepších výsledků v několika úlohách zpracování řeči. K agregaci těchto reprezentací řeči v čase se obvykle přistupuje pomocí popisné statistiky, a to zejména pomocí statistik prvního a druhého řádu koeficientů reprezentace. V tomto článku zkoumáme alternativní způsob získávání informací o mluvčím a emocích ze samoučících se natrénovaných modelů, který je založen na korelacích mezi koeficienty reprezentací - korelační sdružování. Ukazujeme zlepšení oproti průměrnému sdružování a další přínosy, když se metody sdružování kombinují prostřednictvím fúze. Kód je k dispozici na adrese github.com/Lamomal/s3prl_correlation. Translated with www.DeepL.com/Translator (free version)
@INPROCEEDINGS{FITPUB12985, author = "Themos Stafylakis and Ladislav Mo\v{s}ner and Sofoklis Kakouros and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations", pages = "1136--1143", booktitle = "2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings", year = 2023, location = "Doha, QA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-7189-3", doi = "10.1109/SLT54892.2023.10023345", language = "english", url = "https://www.fit.vut.cz/research/publication/12985" }