Detail publikace

Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems

ZULUAGA-GOMEZ Juan, NIGMATULINA Iuliia, PRASAD Amrutha, MOTLÍČEK Petr, VESELÝ Karel, KOCOUR Martin a SZŐKE Igor. Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems. In: Proceedings Interspeech 2021. Brno: International Speech Communication Association, 2021, s. 3296-3300. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/interspeech_2021/zuluagagomez21_interspeech.html
Název česky
Kontextové učení s mírnou supervizí: přístup k využití radarových dat a nepřepsané řeči pro systémy rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Zuluaga-Gomez Juan (IDIAP)
Nigmatulina Iuliia (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, Ing., Ph.D. (IDIAP)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Kocour Martin, Ing. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (ReplayWell)
URL
Abstrakt

Řízení letového provozu a konkrétně řízení letového provozu (ATC) spoléhají především na hlasovou komunikaci mezi dispečery letového provozu (ATCos) a piloty. Ve většině případů tyto hlasové komunikace dodržují dobře definovanou gramatiku, kterou lze využít v technologiích automatického rozpoznávání řeči (ASR). Volací znak používaný k oslovení letadla je nezbytnou součástí veškeré Komunikace ATCo-pilota. Navrhujeme dvoufázový přístup přidat kontextové znalosti během polořízeného školení snížit chybovost systému ASR při rozpoznání části výrok, který obsahuje volací značku. Zpočátku zastupujeme v a WFST kontextové znalosti (tj. údaje z leteckého dohledu). komunikace ATCo-pilot. Pak během Semi-Supervised Učení (SSL) kontextové znalosti jsou přidány pomocí secondpass dekódování (tj. mřížkové opětovné bodování). Výsledky ukazují, že neviditelné". domény" (např. údaje z letišť, která nejsou přítomna v kontrolovaných tréninková data) jsou dále podporovány kontextovým SSL, když ve srovnání se samostatným SSL. Pro tento úkol představujeme Míra chybovosti slovní značky (CA-WER) jako hodnotící metrika, který pouze posuzuje výkon ASR mluvené volací značky ve výpovědi. Získali jsme relativní zlepšení CA-WER o 32,1 %. použití SSL s dodatečnými 17,5 % CA-WER vylepšení přidáním kontextových znalostí během SSL na a náročná testovací sada založená na ATC shromážděná z LiveATC.

Rok
2021
Strany
3296-3300
Časopis
Proceedings of Interspeech - on-line, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings Interspeech 2021
Konference
Interspeech Conference, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno, CZ
DOI
UT WoS
000841879503078
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12611,
   author = "Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Karel Vesel\'{y} and Martin Kocour and Igor Sz\H{o}ke",
   title = "Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems",
   pages = "3296--3300",
   booktitle = "Proceedings Interspeech 2021",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2021,
   number = 8,
   year = 2021,
   location = "Brno, CZ",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2021-1373",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12611"
}
Nahoru