Detail publikace

Target Speech Extraction with Pre-Trained Self-Supervised Learning Models

PENG, J.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. Target Speech Extraction with Pre-Trained Self-Supervised Learning Models. ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 10421-10425. ISBN: 979-8-3503-4485-1.
Název česky
Extrakce řeči cílového mluvčího pomocí předtrénovaných modelů získaných samoučením
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Peng Junyi (UPGM)
Delcroix Marc
OCHIAI, T.
Plchot Oldřich, Ing., Ph.D. (UPGM)
ARAKI, S.
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

Target speech extraction, pre-trained models, self-supervised learning, feature
aggregation

Abstrakt

Předtrénované modely samořízeného učení (SSL) dosáhly pozoruhodného úspěchu
v různých řečových úlohách. Jejich potenciál v cílové extrakci řeči (TSE) však
nebyl plně využit. TSE si klade za cíl extrahovat řeč cílového mluvčího ve směsi
řízené zápisovými promluvami. Předtrénované modely SSL využíváme ke dvěma účelům
v rámci TSE, tj. ke zpracování vstupní směsi a odvození vložení reproduktorů
z registrace. V tomto článku se zaměřujeme na to, jak efektivně používat modely
SSL pro TSE. Nejprve zavádíme nový downstream úkol TSE podle principů SUPERB.
Tento jednoduchý experiment ukazuje potenciál modelů SSL pro TSE, ale výkon
extrakce zůstává daleko za současným stavem techniky. Poté rozšiřujeme výkonnou
architekturu TSE začleněním dvou modulů na bázi SSL: Adaptive Input Enhancer
(AIE) a kodéru mluvčích. Konkrétně navrhovaný AIE využívá přechodné reprezentace
z kodéru CNN úpravou časového rozlišení kodéru CNN a bloků transformátoru pomocí
progresivního převzorkování, zachycující jak jemnozrnné, tak hierarchické rysy.
Naše metoda překonává současné systémy TSE a dosahuje zlepšení SI-SDR o 14,0 dB
na LibriMix. Navíc můžeme ještě zlepšit výkon o 0,7 dB jemným doladěním celého
modelu včetně parametrů modelu SSL.

Rok
2024
Strany
10421–10425
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
BibTeX
@inproceedings{BUT189779,
  author="PENG, J. and DELCROIX, M. and OCHIAI, T. and PLCHOT, O. and ARAKI, S. and ČERNOCKÝ, J.",
  title="Target Speech Extraction with Pre-Trained Self-Supervised Learning Models",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="10421--10425",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10448315",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10448315"
}
Soubory
Nahoru