Detail publikace

DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction

HAN, J.; LONG, Y.; BURGET, L.; ČERNOCKÝ, J. DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 7292-7296. ISBN: 978-1-6654-0540-9.
Název česky
DPCCN: Hustě propojená pyramidální komplexní konvoluční síť pro robustní separaci a extrakci řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

DPCCN, Mixture-Remix, cross-domain, speech separation, unsupervised target speech extraction

Abstrakt

V posledních letech byla navržena řada metod separace řeči v time-domain. Většina z nich je však velmi citlivána prostředí a na úlohy k pokrytí široké domény. V tomhle článku, z hlediska časově-frekvenční domény navrhujeme hustě propojený pyramidový komplex konvoluční sítě, tzvDPCCN, za účelem zlepšení robustnosti separace řeči za komplikovanýchpodmínek. Dále zobecňujeme DPCCN na cílenouextrakci řeči (TSE) integrací nového speciálně navrženéhokodér mluvčího. Kromě toho také zkoumáme robustnostDPCCN na úkoly TSE mezi doménami bez dohledu. Přístup za pomoci Mix-Remixuje navržen k přizpůsobení akustických charakteristik cílové doménypro jemné doladění modelu zdroje. Hodnotíme navrženémetody nejen za hlučných a dozvukových podmínek v doméně,ale také v čistých, ale mezidoménových podmínkách. Výsledky ukazují, že proseparace a extrakce řeči, systémy založené na DPCCNdosáhují výrazně lepšího výkonu a robustnosti než v současnostidominující metody v časové oblasti, zejména pro crossdoménovéúlohy. Zejména jsme zjistili, že jemné ladění Mixture-Remixs DPCCN výrazně překonává TD-SpeakerBeampro TSE mezi doménami bez dohledu, se zlepšením SISNR přibližně o 3,5 dBna testovací sadě cílové domény, bez jakéhokoli výkonu zdrojové doménydegradace.

Rok
2022
Strany
7292–7296
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2022 IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP), Singapore, SG
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore
DOI
UT WoS
000864187907119
EID Scopus
BibTeX
@inproceedings{BUT178382,
  author="Jiangyu {Han} and Yanhua {Long} and Lukáš {Burget} and Jan {Černocký}",
  title="DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="7292--7296",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9747340",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/document/9747340"
}
Soubory
Nahoru