Detail publikace

Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding

ZULUAGA-GOMEZ Juan, NIGMATULINA Iuliia, PRASAD Amrutha, MOTLÍČEK Petr, KHALIL Driss, MADIKERI Srikanth, TART Allan, SZŐKE Igor, LENDERS Vincent, RIGAULT Mickael a CHOUKRI Khalid. Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding. Aerospace, roč. 2023, č. 10, s. 1-33. ISSN 2226-4310. Dostupné z: https://www.mdpi.com/2226-4310/10/10/898
Název česky
Poznatky získané při přepisu 5000 hodin komunikace řízení letového provozu pro robustní automatické porozumění řeči
Typ
článek v časopise
Jazyk
angličtina
Autoři
Zuluaga-Gomez Juan (IDIAP)
Nigmatulina Iuliia (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Khalil Driss (IDIAP)
Madikeri Srikanth (IDIAP)
Tart Allan (OpenSky)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Lenders Vincent ()
Rigault Mickael (ELRA)
Choukri Khalid (ELRA)
URL
Abstrakt

Hlasová komunikace mezi řídícími letového provozu (ATCos) a piloty je zásadní pro zajištění bezpečného a efektivního řízení letového provozu (ATC). Obsluha těchto hlasových komunikací vyžaduje vysokou úroveň informovanosti od ATCos a může být únavné a náchylné k chybám. Nedávné pokusy zaměřit se na integraci umělé inteligence (AI) do komunikace ATC s cílem snížit ATCos pracovní zátěž. Nicméně vývoj systémů umělé inteligence řízených daty pro porozumění mluvenému ATC komunikace vyžaduje rozsáhlé anotované datové sady, které v současné době v oboru chybí. Tento dokument zkoumá ponaučení z projektu ATCO2, jehož cílem bylo vyvinout unikátní platforma pro shromažďování, předzpracování a přepis velkého množství zvukových dat ATC ze vzdušného prostoru reálný čas. Tento článek se zabývá (i) robustním automatickým rozpoznáváním řeči (ASR), (ii) přirozeným jazykem zpracování, (iii) identifikace v anglickém jazyce a (iv) kontextové ovlivnění ASR sledováním data. Potrubí vyvinutý během projektu ATCO2 spolu s otevřeným získáváním jeho dat, podporuje výzkum v oblasti ATC, zatímco celý korpus lze zakoupit prostřednictvím ELDA. ATCO2 korpusy jsou vhodné pro vývoj systémů ASR, kde se přepisuje málo nebo téměř žádný zvuk ATC údaje jsou k dispozici. Například navrhovaný systém ASR trénovaný s ATCO2 dosahuje tak nízkých hodnot 17,9 % WER na veřejných datových sadách ATC, což je o 6,6 % absolutní WER lepší než u "mimo doménu" ale zlaté přepisy. Konečně, vydání 5000 h ASR přepsané řeči - pokrývající více více než 10 letišť po celém světě - je krokem vpřed směrem k robustnějšímu automatickému porozumění řeči systémy pro ATC komunikaci.

Rok
2023
Strany
1-33
Časopis
Aerospace, roč. 2023, č. 10, ISSN 2226-4310
Vydavatel
MDPI
DOI
UT WoS
001093774900001
EID Scopus
BibTeX
@ARTICLE{FITPUB13113,
   author = "Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Driss Khalil and Srikanth Madikeri and Allan Tart and Igor Sz\H{o}ke and Vincent Lenders and Mickael Rigault and Khalid Choukri",
   title = "Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding",
   pages = "1--33",
   journal = "Aerospace",
   volume = 2023,
   number = 10,
   year = 2023,
   ISSN = "2226-4310",
   doi = "10.3390/aerospace10100898",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13113"
}
Nahoru