Detail publikace
Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
NIGMATULINA, I.
HELMKE, H.
OHNEISER, O.
KLEINERT, M.
EHR, H.
Speech Recognition; Model Adaptation; Integration of prior knowledge;
Customization of model, Rare-word integration.
Díky Alexe, Siri nebo Google Assistant, automatické rozpoznávání řeči (ASR)
změnilo náš každodenní život během poslední dekády. K dispozici jsou prototypové
aplikace v oblasti řízení letového provozu (ATM). Předvyplňování záznamů
radarových štítků podporou ASR nedávno dosáhlo úrovně technologické připravenosti
před industrializací (TRL6). Zřídka vyslovovaná slova a slova související se
vzdušným prostorem relevantní v kontextu ATM však zůstávají výzvou pro
sofistikované aplikace. Open source sady nástrojů ASR nebo velké předem trénované
modely pro odborníky - umožňující přizpůsobit ASR novým doménám - lze využít
s typickým omezením dostupnosti určitého množství trénovacích dat specifických
pro doménu, tj. typicky přepsané řeči pro přizpůsobení akustické a/nebo nebo
jazykové modely. Obecně stačí, aby "univerzální" motor ASR spolehlivě rozpoznal
několik stovek slov, která tvoří slovní zásobu hlasové komunikace mezi řídícími
letového provozu a piloty. Pro každé letiště je však potřeba integrovat několik
stovek závislých slov, která se vyslovují jen zřídka. Tyto náročné slovní entity
obsahují speciální označení leteckých společností a názvy navigačních bodů jako
"dexon" nebo "burok", které se objevují pouze v určité oblasti. Při použití jsou
vysoce informativní, a proto vyžadují vysokou přesnost rozpoznávání. Umožnění
přizpůsobení plug and play s minimem odborné manipulace předpokládá, že není
potřeba žádné další školení, tj. jemné doladění univerzálního ASR. Tento článek
představuje inovativní přístup k automatické integraci nových specifických
slovních entit do univerzálního systému ASR. Míra rozpoznávání těchto regionálně
specifických slovních entit s ohledem na univerzální ASR se zvyšuje šestkrát.
@inproceedings{BUT187995,
author="BHATTACHARJEE, M. and MOTLÍČEK, P. and NIGMATULINA, I. and HELMKE, H. and OHNEISER, O. and KLEINERT, M. and EHR, H.",
title="Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training",
booktitle="13th SESAR Innovation Days 2023, SIDS 2023",
year="2023",
volume="2023",
number="11",
pages="1--8",
publisher="SESAR Joint Undertaking",
address="Seville",
doi="10.61009/SID.2023.1.10",
issn="0770-1268",
url="https://www.sesarju.eu/sites/default/files/documents/sid/2023/Papers/SIDs_2023_paper_18%20final.pdf"
}