Detail publikace
Listen only to me! How well can target speech extraction handle false alarms?
Kinoshita Keisuke (NTT)
Ochiai Tsubasa (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Sato Hiroshi (NTT)
Nakatani Tomohiro (NTT)
Cílová extrakce řeči (TSE) extrahuje řeč cílového mluvčího ve směsi daných pomocných vodítek charakterizujících mluvčího, jako je například promluva při zápisu. TSE tak řeší náročný problém současného provádění separace a identifikace mluvčích. Po nedávném vývoji neuronových sítí pro vylepšení a separaci řeči došlo k velkému pokroku v extrakčním výkonu. Většina studií se zaměřila na zpracování směsí, kde cílový mluvčí aktivně mluví. Cílový mluvčí však v praxi někdy mlčí, tj. neaktivní mluvčí (IS). Typický systém TSE bude mít v případech IS tendenci vydávat signál, který způsobí falešné poplachy. To je vážný problém pro praktické nasazení systémů TSE. Tento dokument si klade za cíl lépe porozumět tomu, jak dobře mohou systémy TSE zvládat případy IS. Zvažujeme dva přístupy, jak se vypořádat s IS, (1) trénovat systém na přímý výstup nulových signálů nebo (2) detekovat IS pomocí extra modulu pro ověřování mluvčích. Provádíme rozsáhlé experimentální srovnání těchto schémat z hlediska výkonu extrakce a detekce IS pomocí datové sady LibriMix a odhalujeme jejich klady a zápory.
@INPROCEEDINGS{FITPUB12855, author = "Marc Delcroix and Keisuke Kinoshita and Tsubasa Ochiai and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Hiroshi Sato and Tomohiro Nakatani", title = "Listen only to me! How well can target speech extraction handle false alarms?", pages = "216--220", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", number = 9, year = 2022, location = "Incheon, KR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2022-11252", language = "english", url = "https://www.fit.vut.cz/research/publication/12855" }