Detail publikace
Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems
NIGMATULINA, I.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Veselý Karel, Ing., Ph.D. (UPGM)
Kocour Martin, Ing. (UPGM)
Szőke Igor, Ing., Ph.D. (UPGM)
automatic speech recognition, contextual semisupervisedlearning, air traffic control, air-surveillance data,callsign detection.
Řízení letového provozu a konkrétně řízení letového provozu (ATC)spoléhají především na hlasovou komunikaci mezi dispečery letového provozu(ATCos) a piloty. Ve většině případů tyto hlasové komunikacedodržují dobře definovanou gramatiku, kterou lze využítv technologiích automatického rozpoznávání řeči (ASR). Volací znak používaný k oslovení letadla je nezbytnou součástí veškeréKomunikace ATCo-pilota. Navrhujeme dvoufázový přístuppřidat kontextové znalosti během polořízeného školenísnížit chybovost systému ASR při rozpoznání částivýrok, který obsahuje volací značku. Zpočátku zastupujeme v aWFST kontextové znalosti (tj. údaje z leteckého dohledu).komunikace ATCo-pilot. Pak během Semi-SupervisedUčení (SSL) kontextové znalosti jsou přidány pomocí secondpassdekódování (tj. mřížkové opětovné bodování). Výsledky ukazují, že neviditelné".domény" (např. údaje z letišť, která nejsou přítomna v kontrolovanýchtréninková data) jsou dále podporovány kontextovým SSL, kdyžve srovnání se samostatným SSL. Pro tento úkol představujemeMíra chybovosti slovní značky (CA-WER) jako hodnotící metrika,který pouze posuzuje výkon ASR mluvené volací značkyve výpovědi. Získali jsme relativní zlepšení CA-WER o 32,1 %.použití SSL s dodatečnými 17,5 % CA-WERvylepšení přidáním kontextových znalostí během SSL na anáročná testovací sada založená na ATC shromážděná z LiveATC.
@inproceedings{BUT175846,
author="ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and PRASAD, A. and MOTLÍČEK, P. and VESELÝ, K. and KOCOUR, M. and SZŐKE, I.",
title="Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems",
booktitle="Proceedings Interspeech 2021",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="3296--3300",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-1373",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/zuluagagomez21_interspeech.html"
}