Detail publikace

Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units

YUSUF Bolaji, ČERNOCKÝ Jan a SARAÇLAR Murat. Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units. In: Proceedings of Interspeech 2024. Kos: International Speech Communication Association, 2024, s. 5068-5072. ISSN 1990-9772. Dostupné z: https://www.isca-archive.org/interspeech_2024/yusuf24b_interspeech.pdf
Název česky
Předtrénování celostního vyhledávání klíčových slov s automaticky určenými akustickými jednotkami
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Yusuf Bolaji (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Saraçlar Murat (UBOGAZ)
URL
Klíčová slova

vyhledávání klíčových slov, detekce mluveného slova, akustika objev jednotky

Abstrakt

End-to-end (E2E) vyhledávání klíčových slov (KWS) se objevilo jako alternativní a doplňkový přístup ke konvenčnímu vyhledávání klíčových slov, který závisí na výstupu systémů automatického rozpoznávání řeči (ASR). I když metody E2E značně zjednodušují KWS pipeline, obecně mají horší výkon než jejich protějšky založené na ASR, které mohou těžit z předtrénování s nepřepisovanými daty. V této práci navrhujeme metodu pro předtrénování E2E KWS systémů s nepřepisovanými daty, která zahrnuje použití akustického objevu jednotek (AUD) k získání diskrétních jednotek pro nepřepisovaná data a následné učení lokalizovat sekvence takových jednotek v řeči. Provádíme experimenty napříč jazyky a systémy AUD: ukazujeme, že jemné vyladění takového modelu výrazně překonává model trénovaný od nuly a zlepšení výkonu obecně koreluje s kvalitou systému AUD používaného pro předtrénování.

Rok
2024
Strany
5068-5072
Časopis
Proceedings of Interspeech - on-line, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2024
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos, GR
DOI
BibTeX
@INPROCEEDINGS{FITPUB13320,
   author = "Bolaji Yusuf and Jan \v{C}ernock\'{y} and Murat Sara\c{c}lar",
   title = "Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units",
   pages = "5068--5072",
   booktitle = "Proceedings of Interspeech 2024",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2024,
   number = 9,
   year = 2024,
   location = "Kos, GR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2024-1713",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13320"
}
Nahoru