Detail publikace
Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers
Madikeri Srikanth (IDIAP)
Nigmatulina Iuliia (IDIAP)
Villatoro-tello Esaú (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Pandia Karthick (Uniphore)
Dubagunta S. Pavankumar (Uniphore)
Ganapathiraju Aravind (Uniphore)
Tradičně byly systémy automatického rozpoznávání řeči (ASR) a detekce změny řečníka (SCD) nezávisle trénovány tak, aby generovaly komplexní přepisy doprovázené otočením řečníka. V poslední době se osvědčilo společné trénování systémů ASR a SCD vkládáním žetonů otočení řečníka do cvičného textu ASR. V této práci představujeme multitaskovou alternativu ke společnému tréninkovému přístupu. Výsledky získané na zvukových mixech náhlavních souprav korpusu AMI ukazují, že navrhovaný multitaskový trénink přináší absolutní zlepšení o 1,8 % v pokrytí a čistotě F1 skóre na úloze SCD bez degradace ASR. Zkoumáme také kompromisy mezi výkonem ASR a SCD při trénování pomocí kritérií pro více úloh. Kromě toho ověřujeme informace o změně reproduktoru ve vložených prostorech získaných po různých vrstvách transformátoru předem vyškoleného modelu s vlastním dohledem, jako je XLSR-53, integrací klasifikátoru SCD na výstupu konkrétních vrstev transformátoru. Výsledky ukazují, že použití různých prostorů pro vkládání z modelu XLSR-53 pro multitaskové ASR a SCD je výhodné.1
@INPROCEEDINGS{FITPUB13375, author = "Sashi Kumar and Srikanth Madikeri and Iuliia Nigmatulina and Esa\'{u} Villatoro-tello and Petr Motl\'{i}\v{c}ek and Karthick Pandia and Pavankumar S. Dubagunta and Aravind Ganapathiraju", title = "Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers", pages = "12592--12596", booktitle = "ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)", year = 2024, location = "Seoul, KR", publisher = "IEEE Signal Processing Society", ISBN = "979-8-3503-4485-1", doi = "10.1109/ICASSP48485.2024.10446130", language = "english", url = "https://www.fit.vut.cz/research/publication/13375" }