Detail publikace

Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models

YUSUF, B.; BASKAR, M.; ROSENBERG, A.; RAMABHADRAN, B. Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models. In Proceedings of Interspeech 2024. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 792-796. ISSN: 1990-9772.

Název česky

Spekulativní rozpoznávání řeči pomocí low-rank adaptace jazykových modelů prefixovanch audiem

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Yusuf Bolaji (UPGM)
BASKAR, M.
Rosenberg Andrew
Ramabhadran Bhuvana

URL

Klíčová slova

rozpoznávání řeči s nízkou latencí, spekulativní rozpoznávání řeči, jazykový
model předpony, adaptace na nízké úrovni

Abstrakt

Tento článek se zabývá spekulativním rozpoznáváním řeči (SSR), kde zmocňujeme
konvenční automatické rozpoznávání řeči (ASR) se spekulačními schopnostmi, což
umožňuje rozpoznávači předběhnout zvuk. Zavádíme metriku pro měření výkonu SSR
a navrhujeme model, který provádí SSR kombinací systému ASR založeného na
RNN-Transducer s jazykovým modelem s audioprefixy (LM). Systém ASR přepisuje
probíhající zvuk a dodává výsledné přepisy spolu s předponou závislou na zvuku do
LM, který spekuluje o pravděpodobných dokončeních přepisů. Experimentujeme
s různými soubory dat ASR, které ukazují účinnost naší metody a proveditelnost
SSR jako metody snížení latence ASR.

Rok

2024

Strany

792–796

Časopis

Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772

Sborník

Proceedings of Interspeech 2024

Konference

Interspeech Conference, Kos, GR

Vydavatel

International Speech Communication Association

Místo

Kos

DOI

10.21437/Interspeech.2024-298

EID Scopus

2-s2.0-85206974414

BibTeX

@inproceedings{BUT193739,
  author="YUSUF, B. and BASKAR, M. and ROSENBERG, A. and RAMABHADRAN, B.",
  title="Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models",
  booktitle="Proceedings of Interspeech 2024",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="792--796",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-298",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/yusuf24_interspeech.pdf"
}

Soubory

pdf yusuf24_interspeech_2024.pdf 353 kB