Detail publikace
BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge
Umesh Jahnavi (FIT VUT)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Lopez Fernando (Telefónica)
Beneš Karel, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Luque Jordi (Telefónica)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Článek popisuje výzkum vývoje systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.
@INPROCEEDINGS{FITPUB12859, author = "Martin Kocour and Jahnavi Umesh and Martin Karafi\'{a}t and J\'{a}n \v{S}vec and Fernando Lopez and Karel Bene\v{s} and Mireia S\'{a}nchez Diez and Igor Sz\H{o}ke and Jordi Luque and Karel Vesel\'{y} and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge", pages = "276--280", booktitle = "Proceedings of IberSpeech 2022", year = 2022, location = "Granada, ES", publisher = "International Speech Communication Association", doi = "10.21437/IberSPEECH.2022-56", language = "english", url = "https://www.fit.vut.cz/research/publication/12859" }