Detail publikace
Speaker activity driven neural speech extraction
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Ochiai Tsubasa (NTT)
Kinoshita Keisuke (NTT)
Nakatani Tomohiro (NTT)
Cílová extrakce řeči, která extrahuje řeč cílového řečníka ze směsi užitím pomocného signálu cílového řečníka, se v poslední době těší zvýšenému zájmu. V minulosti byly zkoumány různé pomocné signály, jako předem nahrané promluvy, informace o směru nebo video cílového řečníka. V tomto článku zkoumáme použití informace o aktivitě řečníka jako pomocného signálu pro extrakci řeči založenou na jednokanálové neuronové síti. Navrhujeme neuronovou síť pro extrakci řeči řízenou aktivitou řečníka (ADEnet) a ukazujeme, že dosahuje úspěšnosti srovnatelné s přístupy založenými na předem nahrané promluvě. Dále demonstrujeme potenciál navrhnovaného přístupu po zpracování záznamů schůzek, kde se jako pomocný signál pro ADEnet používá aktivita řečníka získaná z diarizačního systému. Ukazujeme, že tento jednoduchý, ale praktický přístup může úspěšně extrahovat řečníky po diarizaci, což vede ke zlepšení výkonu ASR při použití jednoho mikrofonu, zejména v podmínkách vysokého překrývání, se snížením relativní chybovosti slov až o 25%
@INPROCEEDINGS{FITPUB12479, author = "Marc Delcroix and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Tsubasa Ochiai and Keisuke Kinoshita and Tomohiro Nakatani", title = "Speaker activity driven neural speech extraction", pages = "6099--6103", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2021, location = "Toronto, CA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-7605-5", doi = "10.1109/ICASSP39728.2021.9414998", language = "english", url = "https://www.fit.vut.cz/research/publication/12479" }