Detail publikace
Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems
Kocour Martin, Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
End-to-end (e2e) systémy si v poslední době získaly širokou oblibu v automatickém rozpoznávání řeči. Tyto systémy však obecně neposkytují dobře kalibrované spolehlivosti na úrovni slov. V tomto článku navrhujeme Hystoc, jednoduchou metodu pro získání spolehlivosti na úrovni slov ze skóre na úrovni hypotéz. Hystoc je postup iterativního zarovnání, který mění hypotézy z n-nejlepšího výstupu systému ASR na síť zmatení. Nakonec jsou spolehlivosti na úrovni slov získány jako pozdější pravděpodobnosti v jednotlivých přihrádkách sítě zmatků. Ukázali jsme, že Hystoc poskytuje spolehlivosti, která dobře koreluje s přesností hypotézy ASR. Dále jsme ukázali, že použití Hystoc ve fúzi více systémů e2e ASR zvyšuje zisky z fúze až o 1 % WER absolutně na španělském datovém souboru RTVE2020. Nakonec experimentujeme s použitím Hystoc pro přímou fúzi n-nejlepších výstupů z více systémů, ale při fúzi velmi podobných systémů dosahujeme pouze malých zisků.
@INPROCEEDINGS{FITPUB13267, author = "Karel Bene\v{s} and Martin Kocour and Luk\'{a}\v{s} Burget", title = "Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems", pages = "11276--11280", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2024, location = "Seoul, KR", publisher = "IEEE Signal Processing Society", ISBN = "979-8-3503-4485-1", doi = "10.1109/ICASSP48485.2024.10446739", language = "english", url = "https://www.fit.vut.cz/research/publication/13267" }