Detail publikace

Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems

BENEŠ Karel, KOCOUR Martin a BURGET Lukáš. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 11276-11280. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446739
Název česky
Hystoc: Generování konfidencí slov pro fúzi end-to-end systémů ASR
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Beneš Karel, Ing. (UPGM FIT VUT)
Kocour Martin, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz. Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků. Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze malých zisků.

Rok
2024
Strany
11276-11280
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13267,
   author = "Karel Bene\v{s} and Martin Kocour and Luk\'{a}\v{s} Burget",
   title = "Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems",
   pages = "11276--11280",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10446739",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13267"
}
Nahoru