Detail publikace

Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition

PRASAD Amrutha, ZULUAGA-GOMEZ Juan, MOTLÍČEK Petr, SARFJOO Seyyed Saeed, NIGMATULINA Iuliia, OHNEISER Oliver a HELMKE Hartmut. Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition. In: Proceedings of the 12th SESAR Innovation Days. Budapest, 2022, s. 1-9. Dostupné z: https://arxiv.org/abs/2108.12175
Název česky
Identifikace role mluvčího pro rozpoznávání řeči při řízení letového provozu na základě gramatiky
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Prasad Amrutha (UPGM FIT VUT)
Zuluaga-Gomez Juan (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Sarfjoo Seyyed Saeed (IDIAP)
Nigmatulina Iuliia (IDIAP)
Ohneiser Oliver (DLR)
Helmke Hartmut (DLR)
URL
Abstrakt

Automatické rozpoznávání řeči (ASR) pro letecký provoz řízení je obecně trénováno sdružováním řídících letového provozu (ATCO) a pilotní data do jedné sady. To je motivováno tím skutečnost, že pilotova hlasová komunikace je vzácnější než ATCO. Kvůli této nevyváženosti dat a dalším důvodům (např. proměnlivé akustické podmínky), je obvykle řeč z ATCO rozpoznat přesněji než od pilotů. Automaticky identifikace rolí mluvčích je obzvláště náročný úkol v případě hlučných hlasových nahrávek shromážděných pomocí Very Vysokofrekvenční (VHF) přijímače nebo z důvodu nedostupnosti signálu push-to-talk (PTT), tj. oba audio kanály jsou smíšený. V této práci navrhujeme (1) automaticky segmentovat ATCO a pilotní data založená na využití intuitivního přístupu ASR přepisy a (2) následně zvážit automatické rozpoznání hlasu ATCO a pilotů jako dvou samostatných úkolů. Naše práce se provádí na VHF audio datech s vysokým šumem úrovně, tj. poměr signálu k šumu (SNR) pod 15 dB, protože tato data je uznáváno jako užitečné pro různé strojové učení založené na řeči úkoly. Konkrétně pro identifikaci role mluvčího úkol, modul je reprezentován jednoduchým, ale účinným znalostní systém využívající gramatiku definovanou v Mezinárodní organizace pro civilní letectví (ICAO). Systém přijímá text jako vstup, buď ručně ověřené anotace nebo automaticky generované přepisy. Rozvinutý přístup poskytuje průměrnou přesnost při identifikaci role mluvčího asi 83 %. Nakonec si ukážeme, že trénujeme akustický model pro úkoly ASR samostatně (tj. samostatné modely pro ATCO a piloti) nebo použití víceúlohového přístupu se dobře hodí pro hlučné dat a překonává tradiční systém ASR, kde jsou všechna data je sdruženo dohromady.

Rok
2022
Strany
1-9
Sborník
Proceedings of the 12th SESAR Innovation Days
Konference
12th SESAR Innovation Days, Budapešť, HU
Místo
Budapest, HU
BibTeX
@INPROCEEDINGS{FITPUB13049,
   author = "Amrutha Prasad and Juan Zuluaga-Gomez and Petr Motl\'{i}\v{c}ek and Saeed Seyyed Sarfjoo and Iuliia Nigmatulina and Oliver Ohneiser and Hartmut Helmke",
   title = "Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition",
   pages = "1--9",
   booktitle = "Proceedings of the 12th SESAR Innovation Days",
   year = 2022,
   location = "Budapest, HU",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13049"
}
Nahoru