Detail publikace

Speech Enhancement Using End-to-End Speech Recognition Objectives

SUBRAMANIAN, A.; WANG, X.; BASKAR, M.; WATANABE, S.; TANIGUCHI, T.; TRAN, D.; FUJITA, Y. Speech Enhancement Using End-to-End Speech Recognition Objectives. In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz, NY: IEEE Signal Processing Society, 2019. p. 234-238. ISBN: 978-1-7281-1123-0.
Název česky
Zvýrazňování řeči pomocí objektivní funkce end-to-end rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
SUBRAMANIAN, A.
WANG, X.
Baskar Murali Karthick, Ing., Ph.D.
Watanabe Shinji
TANIGUCHI, T.
TRAN, D.
FUJITA, Y.
URL
Klíčová slova

speech enhancement, speech recognition, neuraldereverberation, neural beamformer, training objectives

Abstrakt

Systémy pro vylepšení řeči, které odšumují a potlačují zkreslené signály, jsou obvykle optimalizovány na základě cílů rekonstrukce signálu, včetně maximální pravděpodobnosti a minimální střední kvadratické chyby. Vznikající end-to-end neurální metody však umožňují optimalizovat systém vylepšení řeči s cíli více orientovanými na aplikaci. Například můžeme společně optimalizovat vylepšení řeči a automatické rozpoznávání řeči (ASR) pouze pomocí kritérií minimalizace chyb ASR. Hlavním příspěvkem tohoto příspěvku je prozkoumat, jak systém optimalizovaný na základě cíle ASR zlepšuje kvalitu vylepšení řeči na různých metrikách úrovně signálu kromě metriky chybovosti slov ASR (WER). Používáme nedávno vyvinutý vícekanálový systém end-to-end (ME2E), který integruje neurální dereverberaci, formování paprsku a rozpoznávání řeči založené na pozornosti v rámci jedné neurální sítě. Dále navrhujeme rozšířit dereverberační podsíť ME2E dynamickým měněním pořadí filtrů v lineární predikci pomocí učení zesílení a rozšířit podsíť tvořící paprsek začleněním odhadu faktoru zkreslení řeči. Pokusy odhalují, jak dobře různé metriky úrovně signálu korelují s metrikou WER, a ověřují, že vylepšení řeči založené na učení lze realizovat cílovými tréninkovými cíli ASR bez použití paralelních čistých a hlučných dat.

Rok
2019
Strany
234–238
Sborník
IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
Konference
IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, US
ISBN
978-1-7281-1123-0
Vydavatel
IEEE Signal Processing Society
Místo
New Paltz, NY
DOI
UT WoS
000527800200048
EID Scopus
BibTeX
@inproceedings{BUT170323,
  author="SUBRAMANIAN, A. and WANG, X. and BASKAR, M. and WATANABE, S. and TANIGUCHI, T. and TRAN, D. and FUJITA, Y.",
  title="Speech Enhancement Using End-to-End Speech Recognition Objectives",
  booktitle="IEEE Workshop on Applications of Signal Processing to Audio and Acoustics",
  year="2019",
  pages="234--238",
  publisher="IEEE Signal Processing Society",
  address="New Paltz, NY",
  doi="10.1109/WASPAA.2019.8937250",
  isbn="978-1-7281-1123-0",
  url="https://ieeexplore.ieee.org/document/8937250"
}
Soubory
Nahoru