Detail publikace

Comparison of wav2vec 2.0 models on three speech processing tasks

KUNEŠOVÁ Marie, ZAJÍC Zbyněk, ŠMÍDL Luboš a KARAFIÁT Martin. Comparison of wav2vec 2.0 models on three speech processing tasks. International Journal of Speech Technology, roč. 27, č. 4, 2024, s. 1-13. ISSN 1572-8110. Dostupné z: https://link.springer.com/article/10.1007/s10772-024-10140-6
Název česky
Srovnání modelů wav2vec 2.0 na třech úlohách zpracování řeči
Typ
článek v časopise
Jazyk
angličtina
Autoři
Kunešová Marie (ZČU v Plzni)
Zajíc Zbyněk, Ing., Ph.D. (ZČU v Plzni)
Šmídl Luboš, Ing., Ph.D. (ZČU v Plzni)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

detekce změny řečníka;detekce řečové aktivity;detekce překrývající se řeči;wav2vec 2.0

Abstrakt

Současným nejmodernějším přístupem k řešení různých úloh zpracování řeči je "sequence-to-sequence" model založený na mechanismu self-attention, známý jako ečových dat a následně doladěn pro konkrétní úlohu. Data použitá pro trénování a doladění, spolu s velikostí transformerového modelu, hrají zásadní roli v obou těc avšak lze očekávat, že použití realističtějších dat nahraných za různých akustických podmínek by mohlo přinést výhody. Není však zcela jasné, jak velký rozdíl toto ách zpracování řeči: detekce změny řečníka, detekce řečové aktivity a detekce překrývající se řeči, a testujeme je na čtyřech reálných datasetech konverzační řeči. ch ze stejného datasetu, nebo na uměle vytvořených trénovacích datech z korpusu LibriSpeech. Naše výsledky naznačují, že bohatší data, která jsou více podobná doméně úloh, přinášejí lepší výkon než větší model.

Rok
2024
Strany
1-13
Časopis
International Journal of Speech Technology, roč. 27, č. 4, ISSN 1572-8110
Vydavatel
Springer Verlag
DOI
EID Scopus
BibTeX
@ARTICLE{FITPUB13316,
   author = "Marie Kune\v{s}ov\'{a} and Zbyn\v{e}k Zaj\'{i}c and Lubo\v{s} \v{S}m\'{i}dl and Martin Karafi\'{a}t",
   title = "Comparison of wav2vec 2.0 models on three speech processing tasks",
   pages = "1--13",
   journal = "International Journal of Speech Technology",
   volume = 27,
   number = 4,
   year = 2024,
   ISSN = "1572-8110",
   doi = "10.1007/s10772-024-10140-6",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13316"
}
Nahoru