Detail publikace
Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units
vyhledávání klíčových slov, detekce mluveného slova, akustika objev jednotky
End-to-end (E2E) vyhledávání klíčových slov (KWS) se objevilo jako alternativní a doplňkový přístup ke konvenčnímu vyhledávání klíčových slov, který závisí na výstupu systémů automatického rozpoznávání řeči (ASR). I když metody E2E značně zjednodušují KWS pipeline, obecně mají horší výkon než jejich protějšky založené na ASR, které mohou těžit z předtrénování s nepřepisovanými daty. V této práci navrhujeme metodu pro předtrénování E2E KWS systémů s nepřepisovanými daty, která zahrnuje použití akustického objevu jednotek (AUD) k získání diskrétních jednotek pro nepřepisovaná data a následné učení lokalizovat sekvence takových jednotek v řeči. Provádíme experimenty napříč jazyky a systémy AUD: ukazujeme, že jemné vyladění takového modelu výrazně překonává model trénovaný od nuly a zlepšení výkonu obecně koreluje s kvalitou systému AUD používaného pro předtrénování.
@INPROCEEDINGS{FITPUB13320, author = "Bolaji Yusuf and Jan \v{C}ernock\'{y} and Murat Sara\c{c}lar", title = "Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units", pages = "5068--5072", booktitle = "Proceedings of Interspeech 2024", journal = "Proceedings of Interspeech - on-line", volume = 2024, number = 9, year = 2024, location = "Kos, GR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2024-1713", language = "english", url = "https://www.fit.vut.cz/research/publication/13320" }