Detail publikace
Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding
Nigmatulina Iuliia (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Khalil Driss (IDIAP)
Madikeri Srikanth (IDIAP)
Tart Allan (OpenSky)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Lenders Vincent ()
Rigault Mickael (ELRA)
Choukri Khalid (ELRA)
Hlasová komunikace mezi řídícími letového provozu (ATCos) a piloty je zásadní pro zajištění bezpečného a efektivního řízení letového provozu (ATC). Obsluha těchto hlasových komunikací vyžaduje vysokou úroveň informovanosti od ATCos a může být únavné a náchylné k chybám. Nedávné pokusy zaměřit se na integraci umělé inteligence (AI) do komunikace ATC s cílem snížit ATCos pracovní zátěž. Nicméně vývoj systémů umělé inteligence řízených daty pro porozumění mluvenému ATC komunikace vyžaduje rozsáhlé anotované datové sady, které v současné době v oboru chybí. Tento dokument zkoumá ponaučení z projektu ATCO2, jehož cílem bylo vyvinout unikátní platforma pro shromažďování, předzpracování a přepis velkého množství zvukových dat ATC ze vzdušného prostoru reálný čas. Tento článek se zabývá (i) robustním automatickým rozpoznáváním řeči (ASR), (ii) přirozeným jazykem zpracování, (iii) identifikace v anglickém jazyce a (iv) kontextové ovlivnění ASR sledováním data. Potrubí vyvinutý během projektu ATCO2 spolu s otevřeným získáváním jeho dat, podporuje výzkum v oblasti ATC, zatímco celý korpus lze zakoupit prostřednictvím ELDA. ATCO2 korpusy jsou vhodné pro vývoj systémů ASR, kde se přepisuje málo nebo téměř žádný zvuk ATC údaje jsou k dispozici. Například navrhovaný systém ASR trénovaný s ATCO2 dosahuje tak nízkých hodnot 17,9 % WER na veřejných datových sadách ATC, což je o 6,6 % absolutní WER lepší než u "mimo doménu" ale zlaté přepisy. Konečně, vydání 5000 h ASR přepsané řeči - pokrývající více více než 10 letišť po celém světě - je krokem vpřed směrem k robustnějšímu automatickému porozumění řeči systémy pro ATC komunikaci.
@ARTICLE{FITPUB13113, author = "Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Driss Khalil and Srikanth Madikeri and Allan Tart and Igor Sz\H{o}ke and Vincent Lenders and Mickael Rigault and Khalid Choukri", title = "Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding", pages = "1--33", journal = "Aerospace", volume = 2023, number = 10, year = 2023, ISSN = "2226-4310", doi = "10.3390/aerospace10100898", language = "english", url = "https://www.fit.vut.cz/research/publication/13113" }