Detail publikace

Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers

KUMAR Sashi, MADIKERI Srikanth, NIGMATULINA Iuliia, VILLATORO-TELLO Esaú, MOTLÍČEK Petr, PANDIA Karthick, DUBAGUNTA S. Pavankumar a GANAPATHIRAJU Aravind. Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers. In: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul: IEEE Signal Processing Society, 2024, s. 12592-12596. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446130
Název česky
Víceúlohové rozpoznávání řeči a detekce změny mluvčího pro neznámý počet mluvčích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kumar Sashi (IDIAP)
Madikeri Srikanth (IDIAP)
Nigmatulina Iuliia (IDIAP)
Villatoro-tello Esaú (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Pandia Karthick (Uniphore)
Dubagunta S. Pavankumar (Uniphore)
Ganapathiraju Aravind (Uniphore)
URL
Abstrakt

Tradičně byly systémy automatického rozpoznávání řeči (ASR) a detekce změny řečníka (SCD) nezávisle trénovány tak, aby generovaly komplexní přepisy doprovázené otočením řečníka. V poslední době se osvědčilo společné trénování systémů ASR a SCD vkládáním žetonů otočení řečníka do cvičného textu ASR. V této práci představujeme multitaskovou alternativu ke společnému tréninkovému přístupu. Výsledky získané na zvukových mixech náhlavních souprav korpusu AMI ukazují, že navrhovaný multitaskový trénink přináší absolutní zlepšení o 1,8 % v pokrytí a čistotě F1 skóre na úloze SCD bez degradace ASR. Zkoumáme také kompromisy mezi výkonem ASR a SCD při trénování pomocí kritérií pro více úloh. Kromě toho ověřujeme informace o změně reproduktoru ve vložených prostorech získaných po různých vrstvách transformátoru předem vyškoleného modelu s vlastním dohledem, jako je XLSR-53, integrací klasifikátoru SCD na výstupu konkrétních vrstev transformátoru. Výsledky ukazují, že použití různých prostorů pro vkládání z modelu XLSR-53 pro multitaskové ASR a SCD je výhodné.1

Rok
2024
Strany
12592-12596
Sborník
ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
BibTeX
@INPROCEEDINGS{FITPUB13375,
   author = "Sashi Kumar and Srikanth Madikeri and Iuliia Nigmatulina and Esa\'{u} Villatoro-tello and Petr Motl\'{i}\v{c}ek and Karthick Pandia and Pavankumar S. Dubagunta and Aravind Ganapathiraju",
   title = "Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers",
   pages = "12592--12596",
   booktitle = "ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10446130",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13375"
}
Nahoru