Detail publikace

Optimizing Bayesian Hmm Based X-Vector Clustering for the Second Dihard Speech Diarization Challenge

DIEZ Sánchez Mireia, BURGET Lukáš, LANDINI Federico Nicolás, WANG Shuai a ČERNOCKÝ Jan. Optimizing Bayesian Hmm Based X-Vector Clustering for the Second Dihard Speech Diarization Challenge. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020, s. 6519-6523. ISBN 978-1-5090-6631-5. Dostupné z: https://ieeexplore.ieee.org/document/9053982
Název česky
Optimalizace bayesovského shlukování x-vektorů založených na HMM pro druhou soutěž DIHARD v diarizaci řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Wang Shuai (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Tento článek představuje analýzu našeho diarizačního systému, který  vyhrál druhou soutěž DIHARD v diarizaci řeči, běh 1. Tento systém je založen na shlukování x-vektorových speaker embeddings extrahovaných každých 0,25 s z krátkých segmentů vstupního záznamu. V tomto článku jsme se zaměřili na dva x-vektory použité shlukovací metody, jmenovitě Aglomerační hierarchie klastrování následované klastrováním založeným na Bayesiánu Skrytý Markovův model (BHMM). I když systém podaný do soutěže podstoupil další kroky po zpracování, ukážeme, že použití jen tohoto BHMM stačí k dosažení nejlepšího výkonu v této soutěži.

Rok
2020
Strany
6519-6523
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Barcelona, ES
ISBN
978-1-5090-6631-5
Vydavatel
IEEE Signal Processing Society
Místo
Barcelona, ES
DOI
UT WoS
000615970406156
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12282,
   author = "Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget and Nicol\'{a}s Federico Landini and Shuai Wang and Jan \v{C}ernock\'{y}",
   title = "Optimizing Bayesian Hmm Based X-Vector Clustering for the Second Dihard Speech Diarization Challenge",
   pages = "6519--6523",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2020,
   location = "Barcelona, ES",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5090-6631-5",
   doi = "10.1109/ICASSP40776.2020.9053982",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12282"
}
Nahoru