Detail publikace

Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units

YUSUF, B.; ČERNOCKÝ, J.; SARAÇLAR, M. Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Kos: International Speech Communication Association, 2024. p. 5068-5072. ISSN: 1990-9772.
Název česky
Předtrénování celostního vyhledávání klíčových slov s automaticky určenými akustickými jednotkami
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Yusuf Bolaji (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
SARAÇLAR, M.
URL
Klíčová slova

vyhledávání klíčových slov, detekce mluveného slova, akustika objev jednotky

Abstrakt

End-to-end (E2E) vyhledávání klíčových slov (KWS) se objevilo jako alternativní
a doplňkový přístup ke konvenčnímu vyhledávání klíčových slov, který závisí na
výstupu systémů automatického rozpoznávání řeči (ASR). I když metody E2E značně
zjednodušují KWS pipeline, obecně mají horší výkon než jejich protějšky založené
na ASR, které mohou těžit z předtrénování s nepřepisovanými daty. V této práci
navrhujeme metodu pro předtrénování E2E KWS systémů s nepřepisovanými daty, která
zahrnuje použití akustického objevu jednotek (AUD) k získání diskrétních jednotek
pro nepřepisovaná data a následné učení lokalizovat sekvence takových jednotek
v řeči. Provádíme experimenty napříč jazyky a systémy AUD: ukazujeme, že jemné
vyladění takového modelu výrazně překonává model trénovaný od nuly a zlepšení
výkonu obecně koreluje s kvalitou systému AUD používaného pro předtrénování.

Rok
2024
Strany
5068–5072
Časopis
Proceedings of Interspeech, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos
DOI
EID Scopus
BibTeX
@inproceedings{BUT193671,
  author="YUSUF, B. and ČERNOCKÝ, J. and SARAÇLAR, M.",
  title="Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2024",
  journal="Proceedings of Interspeech",
  volume="2024",
  number="9",
  pages="5068--5072",
  publisher="International Speech Communication Association",
  address="Kos",
  doi="10.21437/Interspeech.2024-1713",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2024/yusuf24b_interspeech.pdf"
}
Soubory
Nahoru