Detail publikace

Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition

BHATTACHARJEE Mrinmoy, NIGMATULINA Iuliia, PRASAD Amrutha, RANGAPPA Pradeep, MADIKERI Srikanth, MOTLÍČEK Petr, HELMKE Hartmut a KLEINERT Matthias. Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 12652-12656. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10447465
Název česky
Metody kontextového ovlivnění pro zlepšení detekce neobvyklých slov v automatickém rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Bhattacharjee Mrinmoy (IDIAP)
Nigmatulina Iuliia (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Rangappa Pradeep (IDIAP)
Madikeri Srikanth (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Helmke Hartmut (DLR)
Kleinert Matthias (DLR)
URL
Abstrakt

Ve specializovaných oblastech, jako je řízení letového provozu (ATC), je pozoruhodným problémem při přenášení nasazeného systému automatického rozpoznávání řeči (ASR) z jednoho letiště na druhé změna v sadě klíčových slov, která musí být v novém prostředí přesně detekována. . Obvykle se taková slova vyskytují v trénovacích datech omezeně, takže je nepraktické znovu trénovat systém ASR. Tento článek zkoumá inovativní techniky posilování slov pro zlepšení míry detekce takových vzácných slov v hypotézách ASR pro doménu ATC. Jsou zkoumány dva akustické modely: hybridní model CNN-TDNNF trénovaný od nuly a předem trénovaný model XLSR založený na wav2vec2 doladěný na společném datovém souboru ATC. Slovo boosting se provádí třemi způsoby. Nejprve je prozkoumána metoda přidávání slov mimo slovní zásobu. Za druhé se zkoumá G-boosting, který upravuje jazykový model před vytvořením dekódovacího grafu. Za třetí, zesílení se provádí za chodu během dekódování pomocí mřížkového re-scoringu. Výsledky naznačují, že metoda G-boosting funguje nejlépe a poskytuje přibližně 30-43% relativní zlepšení ve vybavování zesílených slov. Navíc je dosaženo relativního zlepšení až o 48 % při kombinaci G-boostingu a mřížkového rescoringu.

Rok
2024
Strany
12652-12656
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13281,
   author = "Mrinmoy Bhattacharjee and Iuliia Nigmatulina and Amrutha Prasad and Pradeep Rangappa and Srikanth Madikeri and Petr Motl\'{i}\v{c}ek and Hartmut Helmke and Matthias Kleinert",
   title = "Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition",
   pages = "12652--12656",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10447465",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13281"
}
Nahoru