Detail publikace

Implementing contextual biasing in GPU decoder for online ASR

NIGMATULINA, I.; MADIKERI, S.; VILLATORO-TELLO, E.; MOTLÍČEK, P.; ZULUAGA-GOMEZ, J.; PANDIA, K.; GANAPATHIRAJU, A. Implementing contextual biasing in GPU decoder for online ASR. In Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 4494-4498. ISSN: 1990-9772.

Název česky

Implementace kontextové předpojatosti (biasu) v GPU dekodéru pro online ASR

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

NIGMATULINA, I.
Madikeri Srikanth
VILLATORO-TELLO, E.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZULUAGA-GOMEZ, J.
PANDIA, K.
GANAPATHIRAJU, A.

URL

Klíčová slova

real-time speech recognition, contextual adaptation, GPU decoding, finite-state transducers

Abstrakt

Dekódování GPU výrazně zrychluje výstup předpovědí ASR.
Zatímco GPU se již používají pro online ASR
dekódování, následné zpracování a rescoring na GPU ne
zatím řádně prošetřena. Vyhodnocování s dostupným kontextem
informace mohou výrazně zlepšit předpovědi ASR.
Předchozí studie prokázaly životaschopnost mřížového vyhodnocování
v dekódování a vážení jazykového modelu (LM) v režimu offline
a online scénáře CPU. Při dekódování GPU v reálném čase,
hypotézy částečného rozpoznávání jsou vytvářeny bez generování mřížky,
což dělá implementaci ovlivnění složitější.
Článek navrhuje a popisuje přístup k integraci
kontextové ovlivnění při dekódování GPU v reálném čase při využívání
standardní Kaldi GPU dekodér. Kromě zkreslení částečného
Předpovědi ASR, náš přístup také umožňuje dynamický kontext
přepínání umožňující flexibilní vyhodnocování každého segmentu řeči
přímo na GPU. Kód je veřejně uvolněn1 a testován pomocí
open-source testovací sady.

Rok

2023

Strany

4494–4498

Časopis

Proceedings of Interspeech, roč. 2023, č. 8, ISSN 1990-9772

Sborník

Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH

Konference

24. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2022), Dublin, IE

Vydavatel

International Speech Communication Association

Místo

Dublin

DOI

10.21437/Interspeech.2023-2449

EID Scopus

2-s2.0-85171561485

BibTeX

@inproceedings{BUT187754,
  author="NIGMATULINA, I. and MADIKERI, S. and VILLATORO-TELLO, E. and MOTLÍČEK, P. and ZULUAGA-GOMEZ, J. and PANDIA, K. and GANAPATHIRAJU, A.",
  title="Implementing contextual biasing in GPU decoder for online ASR",
  booktitle="Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH",
  year="2023",
  journal="Proceedings of Interspeech",
  volume="2023",
  number="8",
  pages="4494--4498",
  publisher="International Speech Communication Association",
  address="Dublin",
  doi="10.21437/Interspeech.2023-2449",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2023/nigmatulina23_interspeech.html"
}

Soubory

pdf nigmatulina23_interspeech.pdf 435 kB