Detail publikace
Listen only to me! How well can target speech extraction handle false alarms?
Kinoshita Keisuke
OCHIAI, T.
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Sato Hiroshi
Nakatani Tomohiro
Speech enhancement, Target speech extraction, Inactive speaker
Cílová extrakce řeči (TSE) extrahuje řeč cílového mluvčího ve směsi daných
pomocných vodítek charakterizujících mluvčího, jako je například promluva při
zápisu. TSE tak řeší náročný problém současného provádění separace a identifikace
mluvčích. Po nedávném vývoji neuronových sítí pro vylepšení a separaci řeči došlo
k velkému pokroku v extrakčním výkonu. Většina studií se zaměřila na zpracování
směsí, kde cílový mluvčí aktivně mluví. Cílový mluvčí však v praxi někdy mlčí,
tj. neaktivní mluvčí (IS). Typický systém TSE bude mít v případech IS tendenci
vydávat signál, který způsobí falešné poplachy. To je vážný problém pro praktické
nasazení systémů TSE. Tento dokument si klade za cíl lépe porozumět tomu, jak
dobře mohou systémy TSE zvládat případy IS. Zvažujeme dva přístupy, jak se
vypořádat s IS, (1) trénovat systém na přímý výstup nulových signálů nebo (2)
detekovat IS pomocí extra modulu pro ověřování mluvčích. Provádíme rozsáhlé
experimentální srovnání těchto schémat z hlediska výkonu extrakce a detekce IS
pomocí datové sady LibriMix a odhalujeme jejich klady a zápory.
@inproceedings{BUT179867,
author="DELCROIX, M. and KINOSHITA, K. and OCHIAI, T. and ŽMOLÍKOVÁ, K. and SATO, H. and NAKATANI, T.",
title="Listen only to me! How well can target speech extraction handle false alarms?",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2022",
journal="Proceedings of Interspeech",
number="9",
pages="216--220",
publisher="International Speech Communication Association",
address="Incheon",
doi="10.21437/Interspeech.2022-11252",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/delcroix22_interspeech.pdf"
}