Detail publikace

Analysis of impact of emotions on target speech extraction and speech separation

ŠVEC Ján, ŽMOLÍKOVÁ Kateřina, KOCOUR Martin, DELCROIX Marc, OCHIAI Tsubasa, MOŠNER Ladislav a ČERNOCKÝ Jan. Analysis of impact of emotions on target speech extraction and speech separation. In: Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022). Bamberg: IEEE Signal Processing Society, 2022, s. 1-5. ISBN 978-1-6654-6867-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9914718
Název česky
Analýza vlivu emocí na extrakci řeči cílového mluvčího a na separaci řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Švec Ján, Ing. (UPGM FIT VUT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kocour Martin, Ing. (UPGM FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V poslední době výkon slepé separace řeči (BSS) a cíl Extrakce řeči (TSE) značně pokročily. Většina prací, se však zaměřuje na relativně dobře kontrolované podmínky, např. čtený projev. V realističtějších situacích se může výkon zhoršit. Jedním z faktorů způsobujících takovou degradaci může být vnitřní variabilita mluvčího, jako jsou emoce, vyskytující se běžně v realistickém mluvený projev. V tomto článku zkoumáme vliv emocí na TSE a BSS. Vytváříme nový testovací datový soubor emocionálních směsí pro hodnocení TSE a BSS. Tato datová sada kombinuje LibriSpeech a Ryerson Audio-Visual Database of Emotional Speech a Song (RAVDESS). Prostřednictvím řízených experimentů můžeme analyzovat dopad různých emocí na výkon BSS a TSE. Pozorujeme, že BSS je relativně odolná vůči emocím, zatímco TSE, což vyžaduje identifikaci a extrakci řeči cíleného mluvčího, je mnohem citlivější na emoce. Na srovnávací experimenty ověření mluvčího ukazujeme, že identifikování cíleného řečníka může být zvláště náročné při jednání s emocionálními problémy mluveného projevu. Pomocí našich zjištění nastíníme potenciální budoucí směry což by mohlo zlepšit odolnost systémů BSS a TSE k emocionální řeči.

Rok
2022
Strany
1-5
Sborník
Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022)
Konference
The 17th International Workshop on Acoustic Signal Enhancement, Bamberg, DE
ISBN
978-1-6654-6867-1
Vydavatel
IEEE Signal Processing Society
Místo
Bamberg, DE
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12856,
   author = "J\'{a}n \v{S}vec and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Martin Kocour and Marc Delcroix and Tsubasa Ochiai and Ladislav Mo\v{s}ner and Jan \v{C}ernock\'{y}",
   title = "Analysis of impact of emotions on target speech extraction and speech separation",
   pages = "1--5",
   booktitle = "Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022)",
   year = 2022,
   location = "Bamberg, DE",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-6867-1",
   doi = "10.1109/IWAENC53105.2022.9914718",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12856"
}
Nahoru