Detail publikace

Listen only to me! How well can target speech extraction handle false alarms?

DELCROIX, M.; KINOSHITA, K.; OCHIAI, T.; ŽMOLÍKOVÁ, K.; SATO, H.; NAKATANI, T. Listen only to me! How well can target speech extraction handle false alarms?. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 216-220. ISSN: 1990-9772.
Název česky
Poslouchej jen mě! Jak dobře zvládá extrakce řeči cílového mluvčího falešné poplachy?
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Delcroix Marc
Kinoshita Keisuke
OCHIAI, T.
Žmolíková Kateřina, Ing., Ph.D. (FIT)
Sato Hiroshi
Nakatani Tomohiro
URL
Klíčová slova

Speech enhancement, Target speech extraction, Inactive speaker

Abstrakt

Cílová extrakce řeči (TSE) extrahuje řeč cílového mluvčího ve směsi daných
pomocných vodítek charakterizujících mluvčího, jako je například promluva při
zápisu. TSE tak řeší náročný problém současného provádění separace a identifikace
mluvčích. Po nedávném vývoji neuronových sítí pro vylepšení a separaci řeči došlo
k velkému pokroku v extrakčním výkonu. Většina studií se zaměřila na zpracování
směsí, kde cílový mluvčí aktivně mluví. Cílový mluvčí však v praxi někdy mlčí,
tj. neaktivní mluvčí (IS). Typický systém TSE bude mít v případech IS tendenci
vydávat signál, který způsobí falešné poplachy. To je vážný problém pro praktické
nasazení systémů TSE. Tento dokument si klade za cíl lépe porozumět tomu, jak
dobře mohou systémy TSE zvládat případy IS. Zvažujeme dva přístupy, jak se
vypořádat s IS, (1) trénovat systém na přímý výstup nulových signálů nebo (2)
detekovat IS pomocí extra modulu pro ověřování mluvčích. Provádíme rozsáhlé
experimentální srovnání těchto schémat z hlediska výkonu extrakce a detekce IS
pomocí datové sady LibriMix a odhalujeme jejich klady a zápory.

Rok
2022
Strany
216–220
Časopis
Proceedings of Interspeech, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
23. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2022), Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724500043
EID Scopus
BibTeX
@inproceedings{BUT179867,
  author="DELCROIX, M. and KINOSHITA, K. and OCHIAI, T. and ŽMOLÍKOVÁ, K. and SATO, H. and NAKATANI, T.",
  title="Listen only to me! How well can target speech extraction handle false alarms?",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  number="9",
  pages="216--220",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-11252",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/delcroix22_interspeech.pdf"
}
Soubory
Nahoru