Detail publikace

Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems

BENEŠ, K.; KOCOUR, M.; BURGET, L. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11276-11280. ISBN: 979-8-3503-4485-1.

Název česky

Hystoc: Generování konfidencí slov pro fúzi end-to-end systémů ASR

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Beneš Karel, Ing., Ph.D. (UPGM)
Kocour Martin, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

confidences measures, system fusion, end-toend systems, automatic speech
recognition

Abstrakt

End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém
rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované
spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou
metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz.
Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího
výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov
získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků.
Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností
hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR
zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru
RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších
výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze
malých zisků.

Rok

2024

Strany

11276–11280

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

Mezinárodní konference o akustice řeči..., Seoul, KR

ISBN

979-8-3503-4485-1

Vydavatel

IEEE Signal Processing Society

Místo

Seoul

DOI

10.1109/ICASSP48485.2024.10446739

EID Scopus

2-s2.0-85195423309

BibTeX

@inproceedings{BUT189696,
  author="Karel {Beneš} and Martin {Kocour} and Lukáš {Burget}",
  title="Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11276--11280",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446739",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739"
}

Soubory

pdf benes_icassp2024_hystoc-End_ASR_Systems.pdf 925 kB