Detail publikace
Comparison of wav2vec 2.0 models on three speech processing tasks
Zajíc Zbyněk, Ing., Ph.D. (ZČU v Plzni)
Šmídl Luboš, Ing., Ph.D. (ZČU v Plzni)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
detekce změny řečníka;detekce řečové aktivity;detekce překrývající se řeči;wav2vec 2.0
Současným nejmodernějším přístupem k řešení různých úloh zpracování řeči je "sequence-to-sequence" model založený na mechanismu self-attention, známý jako ečových dat a následně doladěn pro konkrétní úlohu. Data použitá pro trénování a doladění, spolu s velikostí transformerového modelu, hrají zásadní roli v obou těc avšak lze očekávat, že použití realističtějších dat nahraných za různých akustických podmínek by mohlo přinést výhody. Není však zcela jasné, jak velký rozdíl toto ách zpracování řeči: detekce změny řečníka, detekce řečové aktivity a detekce překrývající se řeči, a testujeme je na čtyřech reálných datasetech konverzační řeči. ch ze stejného datasetu, nebo na uměle vytvořených trénovacích datech z korpusu LibriSpeech. Naše výsledky naznačují, že bohatší data, která jsou více podobná doméně úloh, přinášejí lepší výkon než větší model.
@ARTICLE{FITPUB13316, author = "Marie Kune\v{s}ov\'{a} and Zbyn\v{e}k Zaj\'{i}c and Lubo\v{s} \v{S}m\'{i}dl and Martin Karafi\'{a}t", title = "Comparison of wav2vec 2.0 models on three speech processing tasks", pages = "1--13", journal = "International Journal of Speech Technology", volume = 27, number = 4, year = 2024, ISSN = "1572-8110", doi = "10.1007/s10772-024-10140-6", language = "english", url = "https://www.fit.vut.cz/research/publication/13316" }