Detail publikace
Text Augmentation for Language Models in High Error Recognition Scenario
V tomto článku prozkoumáme několik strategií augmentace dat pro trénování jazykových modelů pro rozpoznávání řeči. Porovnáváme augmentaci na základě globální statistiky chyb s jednou založenou na unigramové statistice chyb ASR a s vyhlazením štítků a jeho vzorkovanou variantou. Kromě toho zkoumáme stabilitu a prediktivní sílu zmatenosti odhadovanou na rozšířených datech. Navzdory tomu, že je triviální, augmentace řízená globální mírou substituce, delece a vkládání dosahuje nejlepších výsledků. Na druhou stranu, i když je související míra zmatenosti stabilní, neposkytuje lepší předpověď konečné míry chyb než ta vanilková. Naše nejlepší schéma augmentace zvyšuje zlepšení WER z druhého průchodu z 1,1 % na 1,9 % absolutně při výzvě CHiMe-6.
@INPROCEEDINGS{FITPUB12606, author = "Karel Bene\v{s} and Luk\'{a}\v{s} Burget", title = "Text Augmentation for Language Models in High Error Recognition Scenario", pages = "1872--1876", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2021, number = 8, year = 2021, location = "Brno, CZ", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2021-627", language = "english", url = "https://www.fit.vut.cz/research/publication/12606" }