Detail publikace
Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition
Zuluaga-Gomez Juan (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Sarfjoo Seyyed Saeed (IDIAP)
Nigmatulina Iuliia (IDIAP)
Ohneiser Oliver (DLR)
Helmke Hartmut (DLR)
Automatické rozpoznávání řeči (ASR) pro letecký provoz řízení je obecně trénováno sdružováním řídících letového provozu (ATCO) a pilotní data do jedné sady. To je motivováno tím skutečnost, že pilotova hlasová komunikace je vzácnější než ATCO. Kvůli této nevyváženosti dat a dalším důvodům (např. proměnlivé akustické podmínky), je obvykle řeč z ATCO rozpoznat přesněji než od pilotů. Automaticky identifikace rolí mluvčích je obzvláště náročný úkol v případě hlučných hlasových nahrávek shromážděných pomocí Very Vysokofrekvenční (VHF) přijímače nebo z důvodu nedostupnosti signálu push-to-talk (PTT), tj. oba audio kanály jsou smíšený. V této práci navrhujeme (1) automaticky segmentovat ATCO a pilotní data založená na využití intuitivního přístupu ASR přepisy a (2) následně zvážit automatické rozpoznání hlasu ATCO a pilotů jako dvou samostatných úkolů. Naše práce se provádí na VHF audio datech s vysokým šumem úrovně, tj. poměr signálu k šumu (SNR) pod 15 dB, protože tato data je uznáváno jako užitečné pro různé strojové učení založené na řeči úkoly. Konkrétně pro identifikaci role mluvčího úkol, modul je reprezentován jednoduchým, ale účinným znalostní systém využívající gramatiku definovanou v Mezinárodní organizace pro civilní letectví (ICAO). Systém přijímá text jako vstup, buď ručně ověřené anotace nebo automaticky generované přepisy. Rozvinutý přístup poskytuje průměrnou přesnost při identifikaci role mluvčího asi 83 %. Nakonec si ukážeme, že trénujeme akustický model pro úkoly ASR samostatně (tj. samostatné modely pro ATCO a piloti) nebo použití víceúlohového přístupu se dobře hodí pro hlučné dat a překonává tradiční systém ASR, kde jsou všechna data je sdruženo dohromady.
@INPROCEEDINGS{FITPUB13049, author = "Amrutha Prasad and Juan Zuluaga-Gomez and Petr Motl\'{i}\v{c}ek and Saeed Seyyed Sarfjoo and Iuliia Nigmatulina and Oliver Ohneiser and Hartmut Helmke", title = "Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition", pages = "1--9", booktitle = "Proceedings of the 12th SESAR Innovation Days", year = 2022, location = "Budapest, HU", language = "english", url = "https://www.fit.vut.cz/research/publication/13049" }