Detail publikace

Speaker-aware neural network based beamformer for speaker extraction in speech mixtures

ŽMOLÍKOVÁ, K.; DELCROIX, M.; KINOSHITA, K.; HIGUCHI, T.; OGAWA, A.; NAKATANI, T. Speaker-aware neural network based beamformer for speaker extraction in speech mixtures. In Proceedings of Interspeech 2017. Proceedings of Interspeech. Stocholm: International Speech Communication Association, 2017. p. 2655-2659. ISSN: 1990-9772.
Název česky
Směrovač paprsku založený na neuronové síti poučené o řečníkovi pro extrakci řečníka ze směsi řečových signálů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Delcroix Marc
Kinoshita Keisuke
Higuchi Takuya
Ogawa Atsunori
Nakatani Tomohiro
URL
Klíčová slova

speaker extraction, speaker-aware neural network,beamforming, mask estimation

Abstrakt

Článek pojednává o směrovači paprsku, založeném na neuronové síti, která je poučená o řečníkovi pro extrakci řečníka ze směsi řečových signálů. V této práci se věnujeme problému extrakce jednoho cílového řečníka z vícekanálové směsi řeči. Neuronovou síť používáme k odhadu masek k extrakci cílového řečníka a odvození filtrů paprskových tvarů pomocí těchto masek, podobně jako nedávno navržený přístup k extrakci řeči za přítomnosti šumu. Abychom překonali permutační nejednoznačnost odhadu masky neuronové sítě, která vzniká za přítomnosti více řečníků, navrhujeme informovat neurální síť o cílovém řečníkovi tak, aby se naučil sledovat charakteristiky řečníka prostřednictvím promluvy. Zkoumáme a porovnáváme různé metody předávání informací o řečníkovi do sítě, jako je například závislost jedné vrstvy sítě na charakteristikách řečníka. Experimenty na směsi dvou řečníků ukazují, že navrhované schéma může sledovat a extrahovat cílového řečníka pro uzavřené i otevřené případové sady řečníků.

Rok
2017
Strany
2655–2659
Časopis
Proceedings of Interspeech, roč. 2017, č. 08, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2017
Konference
18. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2017), Stockholm, SE
Vydavatel
International Speech Communication Association
Místo
Stocholm
DOI
UT WoS
000457505000551
EID Scopus
BibTeX
@inproceedings{BUT144496,
  author="Kateřina {Žmolíková} and Marc {Delcroix} and Keisuke {Kinoshita} and Takuya {Higuchi} and Atsunori {Ogawa} and Tomohiro {Nakatani}",
  title="Speaker-aware neural network based beamformer for speaker extraction in speech mixtures",
  booktitle="Proceedings of Interspeech 2017",
  year="2017",
  journal="Proceedings of Interspeech",
  volume="2017",
  number="08",
  pages="2655--2659",
  publisher="International Speech Communication Association",
  address="Stocholm",
  doi="10.21437/Interspeech.2017-667",
  issn="1990-9772",
  url="http://www.isca-speech.org/archive/Interspeech_2017/pdfs/0667.PDF"
}
Soubory
Nahoru