Detail publikace

Probing Self-Supervised Learning Models With Target Speech Extraction

PENG Junyi, DELCROIX Marc, OCHIAI Tsubasa, ASHIHARA Takanori, PLCHOT Oldřich, ARAKI Shoko a ČERNOCKÝ Jan. Probing Self-Supervised Learning Models With Target Speech Extraction. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 535-539. ISBN 979-8-3503-7451-3. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10627502

Název česky

Testování modelů získaných samoučením na úloze extrakce řeči cílového mluvčího

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Ashihara Takanori (NTT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Araki Shoko (NTT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10627502

Abstrakt

Rozsáhlé pre-trained self-supervised learning (SSL) modely ukázaly pozoruhodný pokrok v úlohách souvisejících s řečí. Využití těchto modelů ve složitých scénářích pro více mluvčích, jako je extrahování cílového mluvčího ve směsi, však musí být ještě plně vyhodnoceno. V tomto článku představujeme cílovou extrakci řeči (TSE) jako nový následný úkol k vyhodnocení schopností extrakce příznaků předem trénovaných modelů SSL. TSE jednoznačně vyžaduje jak identifikaci mluvčího, tak separaci řeči, čímž se odlišuje od ostatních úloh při hodnocení Universal PERformance Benchmark (SUPERB) zpracování řeči. Konkrétně navrhujeme následný model TSE složený ze dvou odlehčených modulů orientovaných na úkoly založené na stejném zmrazeném modelu SSL. Jeden modul funguje jako kodér mluvčího pro získávání informací o cílovém mluvčím z promluvy při zápisu, zatímco druhý modul odhaduje masku cílového mluvčího pro extrahování jeho řeči ze směsi. Experimentální výsledky na souborech dat Libri2mix odhalují relevanci úlohy TSE downstream pro testování modelů SSL, protože její výkon nelze jednoduše odvodit z jiných souvisejících úloh, jako je verifikace a separace mluvčích.

Rok

2024

Strany

535-539

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR

ISBN

979-8-3503-7451-3

Vydavatel

IEEE Signal Processing Society

Místo

Seoul, KR

DOI

10.1109/ICASSPW62465.2024.10627502

EID Scopus

2-s2.0-85202435980

BibTeX

@INPROCEEDINGS{FITPUB13276,
   author = "Junyi Peng and Marc Delcroix and Tsubasa Ochiai and Takanori Ashihara and Old\v{r}ich Plchot and Shoko Araki and Jan \v{C}ernock\'{y}",
   title = "Probing Self-Supervised Learning Models With Target Speech Extraction",
   pages = "535--539",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-7451-3",
   doi = "10.1109/ICASSPW62465.2024.10627502",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13276"
}