Detail publikace

Multi-Channel Speech Separation with Cross-Attention and Beamforming

MOŠNER, L.; PLCHOT, O.; PENG, J.; BURGET, L.; ČERNOCKÝ, J. Multi-Channel Speech Separation with Cross-Attention and Beamforming. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 1693-1697. ISSN: 1990-9772.
Název česky
Vícekanálová separace řeči s cross-attention a beamformingem
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

multi-channel source separation, cross-channel attention, beamforming

Abstrakt

O původně jednokanálovou separaci zdroje začal být větší výzkumný zájem. Výsledkem byl obrovský pokrok. Vícekanálová
(MC) separace přichází s novými výzvami
neboť nepříznivé vnitřní podmínky, z ní činí důležitý obor zájmu.
Snažíme se spojit slibné myšlenky z těchto dvou světů.
Za prvé, stavíme MC modely rozšířením současné jednokanálové separace časových domén, které spoléhají na svou sílu. Náš přístup
umožňuje opětovné použití předem trénovaných modelů do nichž vložíme navržené
lehké referenční kanály s RCA pozorným slučovačem,
jediný vyškolený modul. Skládá se ze dvou bloků: první umožňuje
obsluhující různé části jiných kanálů w.r.t. odkaz
jeden a druhý poskytuje kombinaci založenou na pozornosti
kanály. Za druhé, stejně jako mnoho úspěšných modelů MC, náš systém
obsahuje beamforming a umožňuje fúzi sítě
a výstupy beamformeru. Srovnáváme náš přístup s
SOTA modely na datové sadě SMS-WSJ a ukazují lépe popř
podobný výkon.

Rok
2023
Strany
1693–1697
Časopis
Proceedings of Interspeech, roč. 2023, č. 08, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
24. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2022), Dublin, IE
Vydavatel
International Speech Communication Association
Místo
Dublin
DOI
EID Scopus
BibTeX
@inproceedings{BUT185571,
  author="Ladislav {Mošner} and Oldřich {Plchot} and Junyi {Peng} and Lukáš {Burget} and Jan {Černocký}",
  title="Multi-Channel Speech Separation with Cross-Attention and Beamforming",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2023",
  journal="Proceedings of Interspeech",
  volume="2023",
  number="08",
  pages="1693--1697",
  publisher="International Speech Communication Association",
  address="Dublin",
  doi="10.21437/Interspeech.2023-2537",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/interspeech_2023/mosner23_interspeech.html"
}
Soubory
Nahoru