Detail publikace
Speaker adaptation for Wav2vec2 based dysarthric ASR
Herzig Tim (TU-BERLIN)
Nguyen Diana (TU-BERLIN)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Polzehl Tim (TU-BERLIN)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Dysartrické rozpoznávání řeči představuje velké problémy kvůli nedostatku trénovacích dat a velkému nesouladu v charakteristikách mluvčích. Nedávné systémy ASR těžily ze snadno dostupných předtrénovaných modelů, jako je wav2vec2, aby zlepšily výkon rozpoznávání. Adaptace mluvčího pomocí fMLLR a xvectors poskytla velké zisky pro dysartrickou řeč s velmi malým množstvím adaptačních dat. Nicméně integrace wav2vec2 s funkcemi fMLLR nebo xvectors během jemného ladění wav2vec2 je ještě třeba prozkoumat. V této práci navrhujeme jednoduchou adaptační síť pro jemné doladění wav2vec2 pomocí funkcí fMLLR. Adaptační síť je také flexibilní, aby zvládla další adaptivní funkce mluvčích, jako jsou xvectors. Experimentální analýza ukazuje stabilní zlepšení pomocí našeho navrhovaného přístupu napříč všemi úrovněmi závažnosti poškození a dosahuje 57,72 % WER pro vysokou závažnost v datové sadě UASpeech. Provedli jsme také experimenty na německém datovém souboru, abychom prokázali konzistenci našeho navrhovaného přístupu napříč různými doménami.
@INPROCEEDINGS{FITPUB12854, author = "K. Murali Baskar and Tim Herzig and Diana Nguyen and Mireia S\'{a}nchez Diez and Tim Polzehl and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Speaker adaptation for Wav2vec2 based dysarthric ASR", pages = "3403--3407", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 9, number = 9, year = 2022, location = "Incheon, KR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2022-10896", language = "english", url = "https://www.fit.vut.cz/research/publication/12854" }