Detail publikace
SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Kinoshita Keisuke
ARAKI, S.
Ogawa Atsunori
Nakatani Tomohiro
deep learning, target speaker extraction, SpeakerBeam
V hlučném prostředí, například na koktejlovém večírku, se člověk může soustředit na poslech požadovaného řečníka, schopnost známá jako selektivní sluch. Současné přístupy vyvinuté k realizaci výpočetního selektivníhoslyšení vyžadují znalost polohy cílového řečníka, což omezuje jejich praktické využití. Tento článekpředstavuje SpeakerBeam, přístup k výpočetnímu selektivnímu slyšení založený na hlubokém učení na základě charakteristik hlasu cílového mluvčího. SpeakerBeam vyžaduje pouze malé množství řečových dat od cílového mluvčího k výpočtu jeho hlasových charakteristik. Poté dokáže extrahovat řečtohoto mluvčího bez ohledu na jeho polohu nebo počet mluvčích hovořících v pozadí.
@article{BUT185149,
author="DELCROIX, M. and ŽMOLÍKOVÁ, K. and KINOSHITA, K. and ARAKI, S. and OGAWA, A. and NAKATANI, T.",
title="SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics",
journal="NTT Technical Review",
year="2018",
volume="16",
number="11",
pages="19--24",
issn="1348-3447",
url="https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf"
}