Detail publikace
Spelling-Aware Word-Based End-to-End ASR
EGOROVA Ekaterina, VYDANA Hari K., BURGET Lukáš a ČERNOCKÝ Jan. Spelling-Aware Word-Based End-to-End ASR. IEEE Signal Processing Letters, roč. 29, č. 29, 2022, s. 1729-1733. ISSN 1558-2361. Dostupné z: https://ieeexplore.ieee.org/document/9833231
Název česky
End-to-End systém pro rozpoznávání řeči založený na slovech beroucí v úvahu jejich hláskování
Typ
článek v časopise
Jazyk
angličtina
Autoři
Egorova Ekaterina, Ing., Ph.D. (UPGM FIT VUT)
Vydana Hari K. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Vydana Hari K. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt
Navrhujeme novou end-to-end architekturu pro automatické rozpoznávání řeči, která rozšiřuje paradigma poslechu, účasti a hláskování (LAS). Zatímco hlavní síť pro předpovídání slov je trénována k předpovídání slov, sekundární síť pravopisu je optimalizována k předpovídání pravopisu slov z vnitřních reprezentací hlavní sítě (např. vložení slov nebo kontextové vektory z modulu pozornosti). Ukazujeme, že toto společné školení zlepšuje chybovost slov v systému založeném na slovech a umožňuje řešení dalších úkolů, jako je detekce a obnova slov mimo slovní zásobu. Testy se provádějí na datové sadě LibriSpeech sestávající z 1000 hodin čtené řeči.
Rok
2022
Strany
1729-1733
Časopis
IEEE Signal Processing Letters, roč. 29, č. 29, ISSN 1558-2361
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
000842088200001
EID Scopus
BibTeX
@ARTICLE{FITPUB12803, author = "Ekaterina Egorova and K. Hari Vydana and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Spelling-Aware Word-Based End-to-End ASR", pages = "1729--1733", journal = "IEEE Signal Processing Letters", volume = 29, number = 29, year = 2022, ISSN = "1558-2361", doi = "10.1109/LSP.2022.3192199", language = "english", url = "https://www.fit.vut.cz/research/publication/12803" }