Detail publikace

SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics

DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, ARAKI Shoko, OGAWA Atsunori a NAKATANI Tomohiro. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics. NTT Technical Review, roč. 16, č. 11, 2018, s. 19-24. ISSN 1348-3447. Dostupné z: https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf
Název česky
SpeakerBeam: Nová technologie hlubokého učení pro extrakci řeči cílového mluvčího na základě jeho hlasových charakteristik
Typ
článek v časopise
Jazyk
angličtina
Autoři
Delcroix Marc (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Araki Shoko (NTT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
URL
Abstrakt

V hlučném prostředí, například na koktejlovém večírku, se člověk může soustředit na poslech požadovaného řečníka, schopnost známá jako selektivní sluch. Současné přístupy vyvinuté k realizaci výpočetního selektivního slyšení vyžadují znalost polohy cílového řečníka, což omezuje jejich praktické využití. Tento článek představuje SpeakerBeam, přístup k výpočetnímu selektivnímu slyšení založený na hlubokém učení na základě charakteristik hlasu cílového mluvčího. SpeakerBeam vyžaduje pouze malé množství řečových dat od cílového mluvčího k výpočtu jeho hlasových charakteristik. Poté dokáže extrahovat řeč tohoto mluvčího bez ohledu na jeho polohu nebo počet mluvčích hovořících v pozadí.

Rok
2018
Strany
19-24
Časopis
NTT Technical Review, roč. 16, č. 11, ISSN 1348-3447
Vydavatel
NTT Corporation
EID Scopus
BibTeX
@ARTICLE{FITPUB12961,
   author = "Marc Delcroix and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Keisuke Kinoshita and Shoko Araki and Atsunori Ogawa and Tomohiro Nakatani",
   title = "SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics",
   pages = "19--24",
   journal = "NTT Technical Review",
   volume = 16,
   number = 11,
   year = 2018,
   ISSN = "1348-3447",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12961"
}
Nahoru