Detail publikace
Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition
Nigmatulina Iuliia (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Rangappa Pradeep (IDIAP)
Madikeri Srikanth (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Helmke Hartmut (DLR)
Kleinert Matthias (DLR)
Ve specializovaných oblastech, jako je řízení letového provozu (ATC), je pozoruhodným problémem při přenášení nasazeného systému automatického rozpoznávání řeči (ASR) z jednoho letiště na druhé změna v sadě klíčových slov, která musí být v novém prostředí přesně detekována. . Obvykle se taková slova vyskytují v trénovacích datech omezeně, takže je nepraktické znovu trénovat systém ASR. Tento článek zkoumá inovativní techniky posilování slov pro zlepšení míry detekce takových vzácných slov v hypotézách ASR pro doménu ATC. Jsou zkoumány dva akustické modely: hybridní model CNN-TDNNF trénovaný od nuly a předem trénovaný model XLSR založený na wav2vec2 doladěný na společném datovém souboru ATC. Slovo boosting se provádí třemi způsoby. Nejprve je prozkoumána metoda přidávání slov mimo slovní zásobu. Za druhé se zkoumá G-boosting, který upravuje jazykový model před vytvořením dekódovacího grafu. Za třetí, zesílení se provádí za chodu během dekódování pomocí mřížkového re-scoringu. Výsledky naznačují, že metoda G-boosting funguje nejlépe a poskytuje přibližně 30-43% relativní zlepšení ve vybavování zesílených slov. Navíc je dosaženo relativního zlepšení až o 48 % při kombinaci G-boostingu a mřížkového rescoringu.
@INPROCEEDINGS{FITPUB13281, author = "Mrinmoy Bhattacharjee and Iuliia Nigmatulina and Amrutha Prasad and Pradeep Rangappa and Srikanth Madikeri and Petr Motl\'{i}\v{c}ek and Hartmut Helmke and Matthias Kleinert", title = "Contextual Biasing Methods for Improving Rare Word Detection in Automatic Speech Recognition", pages = "12652--12656", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2024, location = "Seoul, KR", publisher = "IEEE Signal Processing Society", ISBN = "979-8-3503-4485-1", doi = "10.1109/ICASSP48485.2024.10447465", language = "english", url = "https://www.fit.vut.cz/research/publication/13281" }