Detail produktu

BCN2BRNO Automatic speech recognition system for Albayzin 2022 Speech to Text Challenge

Vznik: 2022

Název česky
BCN2BRNO: ASR systém pro Albayzin 2022 Speech to Text Challenge
Typ
software
Licence
vyžadována - zdarma
Autoři
Kocour Martin, Ing. (UPGM FIT VUT)
Umesh Jahnavi (FIT VUT)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Lopez Fernando (Telefónica)
Beneš Karel, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Luque Jordi (Telefónica)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Popis

Software je založen na výzkumu a vývoji systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.

Umístění
Licence

Pro informace o licenčních podmínkách prosím kontaktujte: Ing. Martina Kocmanová, Výzkumné centrum informačních technologií, Fakulta informačních technologií VUT v Brně, Božetěchova 2, 612 66 Brno, tel. 541 141 466.

Projekty
Výzkumné skupiny
Pracoviště
Nahoru