Detail publikace

Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition

PRASAD, A.; ZULUAGA-GOMEZ, J.; MOTLÍČEK, P.; SARFJOO, S.; NIGMATULINA, I.; OHNEISER, O.; HELMKE, H. Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition. Proceedings of the 12th SESAR Innovation Days. Budapest: 2022. p. 1-9.
Název česky
Identifikace role mluvčího pro rozpoznávání řeči při řízení letového provozu na základě gramatiky
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Prasad Amrutha (UPGM)
ZULUAGA-GOMEZ, J.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Sarfjoo Seyyed Saeed
NIGMATULINA, I.
OHNEISER, O.
HELMKE, H.
URL
Klíčová slova

assistant based speech recognition, air traffic management, multitask acoustic modeling, speaker role classification, Kaldi

Abstrakt

Automatické rozpoznávání řeči (ASR) pro letecký provoz
řízení je obecně trénováno sdružováním řídících letového provozu
(ATCO) a pilotní data do jedné sady. To je motivováno tím
skutečnost, že pilotova hlasová komunikace je vzácnější než
ATCO. Kvůli této nevyváženosti dat a dalším důvodům (např.
proměnlivé akustické podmínky), je obvykle řeč z ATCO
rozpoznat přesněji než od pilotů. Automaticky
identifikace rolí mluvčích je obzvláště náročný úkol
v případě hlučných hlasových nahrávek shromážděných pomocí Very
Vysokofrekvenční (VHF) přijímače nebo z důvodu nedostupnosti
signálu push-to-talk (PTT), tj. oba audio kanály jsou
smíšený. V této práci navrhujeme (1) automaticky segmentovat
ATCO a pilotní data založená na využití intuitivního přístupu
ASR přepisy a (2) následně zvážit automatické
rozpoznání hlasu ATCO a pilotů jako dvou samostatných úkolů.
Naše práce se provádí na VHF audio datech s vysokým šumem
úrovně, tj. poměr signálu k šumu (SNR) pod 15 dB, protože tato data
je uznáváno jako užitečné pro různé strojové učení založené na řeči
úkoly. Konkrétně pro identifikaci role mluvčího
úkol, modul je reprezentován jednoduchým, ale účinným
znalostní systém využívající gramatiku definovanou v
Mezinárodní organizace pro civilní letectví (ICAO). Systém
přijímá text jako vstup, buď ručně ověřené anotace
nebo automaticky generované přepisy. Rozvinutý přístup
poskytuje průměrnou přesnost při identifikaci role mluvčího
asi 83 %. Nakonec si ukážeme, že trénujeme akustický model
pro úkoly ASR samostatně (tj. samostatné modely pro ATCO a
piloti) nebo použití víceúlohového přístupu se dobře hodí pro hlučné
dat a překonává tradiční systém ASR, kde jsou všechna data
je sdruženo dohromady.

Rok
2022
Strany
1–9
Sborník
Proceedings of the 12th SESAR Innovation Days
Konference
12. SESAR Inovační dny, Budapešť, HU
Místo
Budapest
BibTeX
@inproceedings{BUT185195,
  author="PRASAD, A. and ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and SARFJOO, S. and NIGMATULINA, I. and OHNEISER, O. and HELMKE, H.",
  title="Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition",
  booktitle="Proceedings of the 12th SESAR Innovation Days",
  year="2022",
  pages="1--9",
  address="Budapest",
  url="https://arxiv.org/abs/2108.12175"
}
Soubory
Nahoru