Detail publikace

Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition

PRASAD, A.; ZULUAGA-GOMEZ, J.; MOTLÍČEK, P.; SARFJOO, S.; NIGMATULINA, I.; OHNEISER, O.; HELMKE, H. Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition. Proceedings of the 12th SESAR Innovation Days. Budapest: 2022. p. 1-9.

Název česky

Identifikace role mluvčího pro rozpoznávání řeči při řízení letového provozu na základě gramatiky

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Prasad Amrutha (UPGM)
ZULUAGA-GOMEZ, J.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Sarfjoo Seyyed Saeed
NIGMATULINA, I.
OHNEISER, O.
HELMKE, H.

URL

Klíčová slova

assistant based speech recognition, air traffic management, multitask acoustic modeling, speaker role classification, Kaldi

Abstrakt

Automatické rozpoznávání řeči (ASR) pro letecký provoz
řízení je obecně trénováno sdružováním řídících letového provozu
(ATCO) a pilotní data do jedné sady. To je motivováno tím
skutečnost, že pilotova hlasová komunikace je vzácnější než
ATCO. Kvůli této nevyváženosti dat a dalším důvodům (např.
proměnlivé akustické podmínky), je obvykle řeč z ATCO
rozpoznat přesněji než od pilotů. Automaticky
identifikace rolí mluvčích je obzvláště náročný úkol
v případě hlučných hlasových nahrávek shromážděných pomocí Very
Vysokofrekvenční (VHF) přijímače nebo z důvodu nedostupnosti
signálu push-to-talk (PTT), tj. oba audio kanály jsou
smíšený. V této práci navrhujeme (1) automaticky segmentovat
ATCO a pilotní data založená na využití intuitivního přístupu
ASR přepisy a (2) následně zvážit automatické
rozpoznání hlasu ATCO a pilotů jako dvou samostatných úkolů.
Naše práce se provádí na VHF audio datech s vysokým šumem
úrovně, tj. poměr signálu k šumu (SNR) pod 15 dB, protože tato data
je uznáváno jako užitečné pro různé strojové učení založené na řeči
úkoly. Konkrétně pro identifikaci role mluvčího
úkol, modul je reprezentován jednoduchým, ale účinným
znalostní systém využívající gramatiku definovanou v
Mezinárodní organizace pro civilní letectví (ICAO). Systém
přijímá text jako vstup, buď ručně ověřené anotace
nebo automaticky generované přepisy. Rozvinutý přístup
poskytuje průměrnou přesnost při identifikaci role mluvčího
asi 83 %. Nakonec si ukážeme, že trénujeme akustický model
pro úkoly ASR samostatně (tj. samostatné modely pro ATCO a
piloti) nebo použití víceúlohového přístupu se dobře hodí pro hlučné
dat a překonává tradiční systém ASR, kde jsou všechna data
je sdruženo dohromady.

Rok

2022

Strany

1–9

Sborník

Proceedings of the 12th SESAR Innovation Days

Konference

12. SESAR Inovační dny, Budapešť, HU

Místo

Budapest

BibTeX

@inproceedings{BUT185195,
  author="PRASAD, A. and ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and SARFJOO, S. and NIGMATULINA, I. and OHNEISER, O. and HELMKE, H.",
  title="Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition",
  booktitle="Proceedings of the 12th SESAR Innovation Days",
  year="2022",
  pages="1--9",
  address="Budapest",
  url="https://arxiv.org/abs/2108.12175"
}

Soubory

pdf prasad_published_SID_paper_68.pdf 2 MB