Detail publikace

Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems

BENEŠ, K.; KOCOUR, M.; BURGET, L. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11276-11280. ISBN: 979-8-3503-4485-1.
Název česky
Hystoc: Generování konfidencí slov pro fúzi end-to-end systémů ASR
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

confidences measures, system fusion, end-toend systems, automatic speech
recognition

Abstrakt

End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém
rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované
spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou
metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz.
Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího
výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov
získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků.
Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností
hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR
zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru
RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších
výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze
malých zisků.

Rok
2024
Strany
11276–11280
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT189696,
  author="Karel {Beneš} and Martin {Kocour} and Lukáš {Burget}",
  title="Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11276--11280",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446739",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739"
}
Soubory
Nahoru