Detail publikace
Effective Phase Encoding for End-To-End Speaker Verification
Qu Xiaoyang (PATS)
Gu Rongzhi (PKUSZ)
Wang Jianzong (PATS)
Xiao Jing (PATS)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Široce používané funkce založené na magnitudovém spektru prokázaly svou převahu v oblasti zpracování řeči. Naproti tomu význam fázového spektra je vždy ignorován. Je to proto, že vzory skryté ve fázi nelze intuitivně modelovat a interpretovat kvůli fenoménu obalování fáze. V tomto článku zkoumáme nové funkce založené na fázovém spektru, nazvané Learnable Group Delay (LearnGD), abychom zachytili užitečné informace v řečových signálech. Konkrétně, za prvé, zápor spektrální derivace fázového spektra, nazývaný skupinové zpoždění (GD), se používá k rozbalení fáze. Poté, aby se potlačila ostrá povaha GD, která je způsobena jeho kořeny blízko jednotkové kružnice v doméně Z, je k rekonstrukci GD použita pečlivě navržená lehká konvoluční vyhlazovací vrstva. Nakonec je představen exponenciální hyperparametr pro rekonstrukci funkcí GD pro obnovení rozsahu spektra a generování funkcí LearnGD. Pro hodnocení výkonu se na korpusu VoxCeleb2 provádějí experimenty s ověřením mluvčího. Ve srovnání s tradiční akustickou vlastností odvozenou z magnitudového spektra dosahují navrhované fázové vlastnosti 27,8% relativního zlepšení z hlediska EER. Kromě toho experimentální výsledky na úloze rozpoznávání fonémů TIMIT také demonstrují účinnost námi navrhovaných fázově založených funkcí.
@INPROCEEDINGS{FITPUB12607, author = "Junyi Peng and Xiaoyang Qu and Rongzhi Gu and Jianzong Wang and Jing Xiao and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Effective Phase Encoding for End-To-End Speaker Verification", pages = "2366--2370", booktitle = "Proceedings Interspeech 2021", journal = "Proceedings of Interspeech - on-line", volume = 2021, number = 8, year = 2021, location = "Brno, CZ", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2021-2025", language = "english", url = "https://www.fit.vut.cz/research/publication/12607" }