Detail publikace
Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems
Nigmatulina Iuliia (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, Ing., Ph.D. (IDIAP)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Kocour Martin, Ing. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (ReplayWell)
Řízení letového provozu a konkrétně řízení letového provozu (ATC) spoléhají především na hlasovou komunikaci mezi dispečery letového provozu (ATCos) a piloty. Ve většině případů tyto hlasové komunikace dodržují dobře definovanou gramatiku, kterou lze využít v technologiích automatického rozpoznávání řeči (ASR). Volací znak používaný k oslovení letadla je nezbytnou součástí veškeré Komunikace ATCo-pilota. Navrhujeme dvoufázový přístup přidat kontextové znalosti během polořízeného školení snížit chybovost systému ASR při rozpoznání části výrok, který obsahuje volací značku. Zpočátku zastupujeme v a WFST kontextové znalosti (tj. údaje z leteckého dohledu). komunikace ATCo-pilot. Pak během Semi-Supervised Učení (SSL) kontextové znalosti jsou přidány pomocí secondpass dekódování (tj. mřížkové opětovné bodování). Výsledky ukazují, že neviditelné". domény" (např. údaje z letišť, která nejsou přítomna v kontrolovaných tréninková data) jsou dále podporovány kontextovým SSL, když ve srovnání se samostatným SSL. Pro tento úkol představujeme Míra chybovosti slovní značky (CA-WER) jako hodnotící metrika, který pouze posuzuje výkon ASR mluvené volací značky ve výpovědi. Získali jsme relativní zlepšení CA-WER o 32,1 %. použití SSL s dodatečnými 17,5 % CA-WER vylepšení přidáním kontextových znalostí během SSL na a náročná testovací sada založená na ATC shromážděná z LiveATC.
@INPROCEEDINGS{FITPUB12611, author = "Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Karel Vesel\'{y} and Martin Kocour and Igor Sz\H{o}ke", title = "Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems", pages = "3296--3300", booktitle = "Proceedings Interspeech 2021", journal = "Proceedings of Interspeech - on-line", volume = 2021, number = 8, year = 2021, location = "Brno, CZ", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2021-1373", language = "english", url = "https://www.fit.vut.cz/research/publication/12611" }