Detail publikace

Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations

STAFYLAKIS Themos, MOŠNER Ladislav, KAKOUROS Sofoklis, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations. In: 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023, s. 1136-1143. ISBN 978-1-6654-7189-3. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023345
Název česky
Extrakce informací o mluvčím a emocích ze self-supervised modelů řeči pomocí korelace po kanálech
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Kakouros Sofoklis ( neznámá)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Samostatné učení reprezentací řeči z velkého množství neoznačených dat umožnilo dosáhnout nejlepších výsledků v několika úlohách zpracování řeči. K agregaci těchto reprezentací řeči v čase se obvykle přistupuje pomocí popisné statistiky, a to zejména pomocí statistik prvního a druhého řádu koeficientů reprezentace. V tomto článku zkoumáme alternativní způsob získávání informací o mluvčím a emocích ze samoučících se natrénovaných modelů, který je založen na korelacích mezi koeficienty reprezentací - korelační sdružování. Ukazujeme zlepšení oproti průměrnému sdružování a další přínosy, když se metody sdružování kombinují prostřednictvím fúze. Kód je k dispozici na adrese github.com/Lamomal/s3prl_correlation. Translated with www.DeepL.com/Translator (free version)

Rok
2023
Strany
1136-1143
Sborník
2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP, SLT, Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha, QA
DOI
UT WoS
000968851900153
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12985,
   author = "Themos Stafylakis and Ladislav Mo\v{s}ner and Sofoklis Kakouros and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations",
   pages = "1136--1143",
   booktitle = "2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
   year = 2023,
   location = "Doha, QA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-7189-3",
   doi = "10.1109/SLT54892.2023.10023345",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12985"
}
Nahoru