Detail publikace

Effective Phase Encoding for End-To-End Speaker Verification

PENG Junyi, QU Xiaoyang, GU Rongzhi, WANG Jianzong, XIAO Jing, BURGET Lukáš a ČERNOCKÝ Jan. Effective Phase Encoding for End-To-End Speaker Verification. In: Proceedings Interspeech 2021. Brno: International Speech Communication Association, 2021, s. 2366-2370. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/interspeech_2021/peng21c_interspeech.html
Název česky
Efektivní modelování fáze v end-to-end rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Qu Xiaoyang (PATS)
Gu Rongzhi (PKUSZ)
Wang Jianzong (PATS)
Xiao Jing (PATS)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Široce používané funkce založené na magnitudovém spektru prokázaly svou převahu v oblasti zpracování řeči. Naproti tomu význam fázového spektra je vždy ignorován. Je to proto, že vzory skryté ve fázi nelze intuitivně modelovat a interpretovat kvůli fenoménu obalování fáze. V tomto článku zkoumáme nové funkce založené na fázovém spektru, nazvané Learnable Group Delay (LearnGD), abychom zachytili užitečné informace v řečových signálech. Konkrétně, za prvé, zápor spektrální derivace fázového spektra, nazývaný skupinové zpoždění (GD), se používá k rozbalení fáze. Poté, aby se potlačila ostrá povaha GD, která je způsobena jeho kořeny blízko jednotkové kružnice v doméně Z, je k rekonstrukci GD použita pečlivě navržená lehká konvoluční vyhlazovací vrstva. Nakonec je představen exponenciální hyperparametr pro rekonstrukci funkcí GD pro obnovení rozsahu spektra a generování funkcí LearnGD. Pro hodnocení výkonu se na korpusu VoxCeleb2 provádějí experimenty s ověřením mluvčího. Ve srovnání s tradiční akustickou vlastností odvozenou z magnitudového spektra dosahují navrhované fázové vlastnosti 27,8% relativního zlepšení z hlediska EER. Kromě toho experimentální výsledky na úloze rozpoznávání fonémů TIMIT také demonstrují účinnost námi navrhovaných fázově založených funkcí.

Rok
2021
Strany
2366-2370
Časopis
Proceedings of Interspeech - on-line, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings Interspeech 2021
Konference
Interspeech Conference, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno, CZ
DOI
UT WoS
000841879502096
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12607,
   author = "Junyi Peng and Xiaoyang Qu and Rongzhi Gu and Jianzong Wang and Jing Xiao and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Effective Phase Encoding for End-To-End Speaker Verification",
   pages = "2366--2370",
   booktitle = "Proceedings Interspeech 2021",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2021,
   number = 8,
   year = 2021,
   location = "Brno, CZ",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2021-2025",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12607"
}
Nahoru