Detail publikace
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models
Baskar Karthick Murali (Google, Inc.)
Rosenberg Andrew (Google, Inc.)
Ramabhadran Bhuvana (Google, Inc.)
rozpoznávání řeči s nízkou latencí, spekulativní rozpoznávání řeči, jazykový model předpony, adaptace na nízké úrovni
Tento článek se zabývá spekulativním rozpoznáváním řeči (SSR), kde zmocňujeme konvenční automatické rozpoznávání řeči (ASR) se spekulačními schopnostmi, což umožňuje rozpoznávači předběhnout zvuk. Zavádíme metriku pro měření výkonu SSR a navrhujeme model, který provádí SSR kombinací systému ASR založeného na RNN-Transducer s jazykovým modelem s audioprefixy (LM). Systém ASR přepisuje probíhající zvuk a dodává výsledné přepisy spolu s předponou závislou na zvuku do LM, který spekuluje o pravděpodobných dokončeních přepisů. Experimentujeme s různými soubory dat ASR, které ukazují účinnost naší metody a proveditelnost SSR jako metody snížení latence ASR.
@INPROCEEDINGS{FITPUB13321, author = "Bolaji Yusuf and Murali Karthick Baskar and Andrew Rosenberg and Bhuvana Ramabhadran", title = "Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models", pages = "792--796", booktitle = "Proceedings of Interspeech 2024", journal = "Proceedings of Interspeech - on-line", volume = 2024, number = 9, year = 2024, location = "Kos, GR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2024-298", language = "english", url = "https://www.fit.vut.cz/research/publication/13321" }