Detail produktu
BCN2BRNO Automatic speech recognition system for Albayzin 2022 Speech to Text Challenge
Vznik: 2022
Umesh Jahnavi (FIT VUT)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Lopez Fernando (Telefónica)
Beneš Karel, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Luque Jordi (Telefónica)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Software je založen na výzkumu a vývoji systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.
Pro informace o licenčních podmínkách prosím kontaktujte: Ing. Martina Kocmanová, Výzkumné centrum informačních technologií, Fakulta informačních technologií VUT v Brně, Božetěchova 2, 612 66 Brno, tel. 541 141 466.