Detail publikace

Discriminative Training of VBx Diarization

KLEMENT Dominik, DIEZ Sánchez Mireia, LANDINI Federico Nicolás, BURGET Lukáš, SILNOVA Anna, DELCROIX Marc a TAWARA Naohiro. Discriminative Training of VBx Diarization. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 11871-11875. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119
Název česky
Diskriminativní trénování VBx diarizace mluvčích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Klement Dominik, Bc. (FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Tawara Naohiro (NTT)
URL
Abstrakt

Bayesovské HMM shlukování x-vektorových sekvencí (VBx) se stalo široce přijatým základním modelem diarizace v publikacích a výzvách. Používá HMM k modelování obratů reproduktorů, generativně trénovanou pravděpodobnostní lineární diskriminační analýzu (PLDA) pro modelování distribuce mluvčích a Bayesovu inferenci k odhadu přiřazení x-vektorů mluvčím. Tento článek představuje nový rámec pro aktualizaci parametrů VBx pomocí diskriminačního tréninku, který přímo optimalizuje předem definovanou ztrátu. Navrhujeme také novou ztrátu, která lépe koreluje s chybovostí diarizování ve srovnání s binární křížovou entropií - výchozí volba pro diarizační end-to-end systémy. Výsledky důkazu konceptu napříč třemi datovými sadami (AMI, CALLHOME a DIHARD II) demonstrují schopnost metody automaticky vyhledávat hyperparametry a dosahovat srovnatelného výkonu s těmi, které byly nalezeny při rozsáhlém vyhledávání v mřížce, což obvykle vyžaduje další znalosti chování hyperparametrů. Navíc ukazujeme, že diskriminační jemné doladění PLDA může dále zlepšit výkon modelu. S touto publikací zveřejňujeme zdrojový kód.

Rok
2024
Strany
11871-11875
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13277,
   author = "Dominik Klement and Mireia S\'{a}nchez Diez and Nicol\'{a}s Federico Landini and Luk\'{a}\v{s} Burget and Anna Silnova and Marc Delcroix and Naohiro Tawara",
   title = "Discriminative Training of VBx Diarization",
   pages = "11871--11875",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10446119",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13277"
}
Nahoru