Detail publikace
Advancing speaker embedding learning: Wespeaker toolkit for research and production
Chen Zhengyang (SJTU)
Han Bing (SJTU)
Wang Hongji (Tencent)
Xiang Xu (SJTU)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Qian Yanmin (SJTU)
a další
- https://pdf.sciencedirectassets.com/271578/1-s2.0-S0167639324X00060/1-s2.0-S0167639324000761/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEAsaCXVzLWVhc3QtMSJIMEYCIQC8Doe66%2Bu6V%2FODd2NY6EZwVTEeN05avzWi09%2FPx3ob%2FQIhAP%2BOyz3L2hXSsDYY4l3zSuz1pzOjFiaTh%
- https://www.fit.vut.cz/research/group/speech/public/publi/2024/wang_speech%20communication_2024.pdf PDF
Modelování mluvčích hraje klíčovou roli v různých úlohách a převládajícím modelovacím přístupem jsou vektorová reprezentace s pevnou dimenzí, známá jako vkládání mluvčích. Tato vložení se obvykle vyhodnocují v rámci ověřování mluvčího, ale jejich užitečnost se rozšiřuje na širokou škálu souvisejících úkolů včetně diarizace mluvčího, syntézy řeči, převodu hlasu a extrakce cílového mluvčího. Tento článek představuje Wespeaker, uživatelsky přívětivou sadu nástrojů navrženou pro výzkumné i produkční účely, věnovanou výuce vkládání mluvčích. Wespeaker nabízí škálovatelnou správu dat, nejmodernější modely vkládání mluvčích a výuková schémata s vlastním dohledem s potenciálem využít rozsáhlých neoznačených reálných dat. Sada nástrojů obsahuje strukturované recepty, které byly úspěšně přijaty ve vítězných systémech napříč různými výzvami v oblasti ověřování mluvčích, což zajišťuje vysoce konkurenční výsledky. Pro produkčně orientovaný vývoj integruje Wespeaker implementační a runtime kódy kompatibilní s CPU a GPU a podporuje běžné platformy, jako jsou Windows, Linux, Mac a čipy na zařízení, jako je horizon X3'PI. Wespeaker také poskytuje standardní vysoce kvalitní vestavby mluvčích tím, že poskytuje různé předem připravené modely, které lze bez námahy aplikovat na různé úkoly, které vyžadují modelování mluvčích. Sada nástrojů je veřejně dostupná na https://github.com/wenet-e2e/wespeaker.
@ARTICLE{FITPUB13337, author = "Shuai Wang and Zhengyang Chen and Bing Han and Hongji Wang and Xu Xiang and A. Johan Rohdin and Anna Silnova and Yanmin Qian and Haizhou Li and et al.", title = "Advancing speaker embedding learning: Wespeaker toolkit for research and production", pages = "1--12", journal = "Speech Communication", volume = 162, number = 103104, year = 2024, ISSN = "0167-6393", doi = "10.1016/j.specom.2024.103104", language = "english", url = "https://www.fit.vut.cz/research/publication/13337" }