Detail publikace

Advancing speaker embedding learning: Wespeaker toolkit for research and production

WANG Shuai, CHEN Zhengyang, HAN Bing, WANG Hongji, XIANG Xu, ROHDIN Johan A., SILNOVA Anna, QIAN Yanmin a LI Haizhou a kol. Advancing speaker embedding learning: Wespeaker toolkit for research and production. Speech Communication, roč. 162, č. 103104, 2024, s. 1-12. ISSN 0167-6393. Dostupné z: https://pdf.sciencedirectassets.com/271578/1-s2.0-S0167639324X00060/1-s2.0-S0167639324000761/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEAsaCXVzLWVhc3QtMSJIMEYCIQC8Doe66%2Bu6V%2FODd2NY6EZwVTEeN05avzWi09%2FPx3ob%2FQIhAP%2BOyz3L2hXSsDYY4l3zSuz1pzOjFiaTh%
Název česky
Pokroky v trénování embeddingů řečníků: toolkit Wespeaker pro výzkum a produkci
Typ
článek v časopise
Jazyk
angličtina
Autoři
Wang Shuai (SJTU)
Chen Zhengyang (SJTU)
Han Bing (SJTU)
Wang Hongji (Tencent)
Xiang Xu (SJTU)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Qian Yanmin (SJTU)
a další
URL
Abstrakt

Modelování mluvčích hraje klíčovou roli v různých úlohách a převládajícím modelovacím přístupem jsou vektorová reprezentace s pevnou dimenzí, známá jako vkládání mluvčích. Tato vložení se obvykle vyhodnocují v rámci ověřování mluvčího, ale jejich užitečnost se rozšiřuje na širokou škálu souvisejících úkolů včetně diarizace mluvčího, syntézy řeči, převodu hlasu a extrakce cílového mluvčího. Tento článek představuje Wespeaker, uživatelsky přívětivou sadu nástrojů navrženou pro výzkumné i produkční účely, věnovanou výuce vkládání mluvčích. Wespeaker nabízí škálovatelnou správu dat, nejmodernější modely vkládání mluvčích a výuková schémata s vlastním dohledem s potenciálem využít rozsáhlých neoznačených reálných dat. Sada nástrojů obsahuje strukturované recepty, které byly úspěšně přijaty ve vítězných systémech napříč různými výzvami v oblasti ověřování mluvčích, což zajišťuje vysoce konkurenční výsledky. Pro produkčně orientovaný vývoj integruje Wespeaker implementační a runtime kódy kompatibilní s CPU a GPU a podporuje běžné platformy, jako jsou Windows, Linux, Mac a čipy na zařízení, jako je horizon X3'PI. Wespeaker také poskytuje standardní vysoce kvalitní vestavby mluvčích tím, že poskytuje různé předem připravené modely, které lze bez námahy aplikovat na různé úkoly, které vyžadují modelování mluvčích. Sada nástrojů je veřejně dostupná na https://github.com/wenet-e2e/wespeaker.

Rok
2024
Strany
1-12
Časopis
Speech Communication, roč. 162, č. 103104, ISSN 0167-6393
Vydavatel
Elsevier Science
DOI
EID Scopus
BibTeX
@ARTICLE{FITPUB13337,
   author = "Shuai Wang and Zhengyang Chen and Bing Han and Hongji Wang and Xu Xiang and A. Johan Rohdin and Anna Silnova and Yanmin Qian and Haizhou Li and et al.",
   title = "Advancing speaker embedding learning: Wespeaker toolkit for research and production",
   pages = "1--12",
   journal = "Speech Communication",
   volume = 162,
   number = 103104,
   year = 2024,
   ISSN = "0167-6393",
   doi = "10.1016/j.specom.2024.103104",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13337"
}
Nahoru