Detail publikace

Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models

YUSUF Bolaji, BASKAR Karthick Murali, ROSENBERG Andrew a RAMABHADRAN Bhuvana. Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models. In: Proceedings of Interspeech 2024. Kos: International Speech Communication Association, 2024, s. 792-796. ISSN 1990-9772. Dostupné z: https://www.isca-archive.org/interspeech_2024/yusuf24_interspeech.pdf
Název česky
Spekulativní rozpoznávání řeči pomocí low-rank adaptace jazykových modelů prefixovanch audiem
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Yusuf Bolaji (UPGM FIT VUT)
Baskar Karthick Murali (Google, Inc.)
Rosenberg Andrew (Google, Inc.)
Ramabhadran Bhuvana (Google, Inc.)
URL
Klíčová slova

rozpoznávání řeči s nízkou latencí, spekulativní rozpoznávání řeči, jazykový model předpony, adaptace na nízké úrovni

Abstrakt

Tento článek se zabývá spekulativním rozpoznáváním řeči (SSR), kde zmocňujeme konvenční automatické rozpoznávání řeči (ASR) se spekulačními schopnostmi, což umožňuje rozpoznávači předběhnout zvuk. Zavádíme metriku pro měření výkonu SSR a navrhujeme model, který provádí SSR kombinací systému ASR založeného na RNN-Transducer s jazykovým modelem s audioprefixy (LM). Systém ASR přepisuje probíhající zvuk a dodává výsledné přepisy spolu s předponou závislou na zvuku do LM, který spekuluje o pravděpodobných dokončeních přepisů. Experimentujeme s různými soubory dat ASR, které ukazují účinnost naší metody a proveditelnost SSR jako metody snížení latence ASR.

Rok
2024
Strany
792-796
Časopis
Proceedings of Interspeech - on-line, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2024
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos, GR
DOI
BibTeX
@INPROCEEDINGS{FITPUB13321,
   author = "Bolaji Yusuf and Murali Karthick Baskar and Andrew Rosenberg and Bhuvana Ramabhadran",
   title = "Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models",
   pages = "792--796",
   booktitle = "Proceedings of Interspeech 2024",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2024,
   number = 9,
   year = 2024,
   location = "Kos, GR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2024-298",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13321"
}
Nahoru