Detail publikace
Analysis of impact of emotions on target speech extraction and speech separation
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kocour Martin, Ing. (UPGM FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V poslední době výkon slepé separace řeči (BSS) a cíl Extrakce řeči (TSE) značně pokročily. Většina prací, se však zaměřuje na relativně dobře kontrolované podmínky, např. čtený projev. V realističtějších situacích se může výkon zhoršit. Jedním z faktorů způsobujících takovou degradaci může být vnitřní variabilita mluvčího, jako jsou emoce, vyskytující se běžně v realistickém mluvený projev. V tomto článku zkoumáme vliv emocí na TSE a BSS. Vytváříme nový testovací datový soubor emocionálních směsí pro hodnocení TSE a BSS. Tato datová sada kombinuje LibriSpeech a Ryerson Audio-Visual Database of Emotional Speech a Song (RAVDESS). Prostřednictvím řízených experimentů můžeme analyzovat dopad různých emocí na výkon BSS a TSE. Pozorujeme, že BSS je relativně odolná vůči emocím, zatímco TSE, což vyžaduje identifikaci a extrakci řeči cíleného mluvčího, je mnohem citlivější na emoce. Na srovnávací experimenty ověření mluvčího ukazujeme, že identifikování cíleného řečníka může být zvláště náročné při jednání s emocionálními problémy mluveného projevu. Pomocí našich zjištění nastíníme potenciální budoucí směry což by mohlo zlepšit odolnost systémů BSS a TSE k emocionální řeči.
@INPROCEEDINGS{FITPUB12856, author = "J\'{a}n \v{S}vec and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Martin Kocour and Marc Delcroix and Tsubasa Ochiai and Ladislav Mo\v{s}ner and Jan \v{C}ernock\'{y}", title = "Analysis of impact of emotions on target speech extraction and speech separation", pages = "1--5", booktitle = "Proceedings of The 17th International Workshop on Acoustic Signal Enhancement (IWAENC 2022)", year = 2022, location = "Bamberg, DE", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-6867-1", doi = "10.1109/IWAENC53105.2022.9914718", language = "english", url = "https://www.fit.vut.cz/research/publication/12856" }