Detail publikace

EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION

MOTLÍČEK Petr, DEY Subhadeep, MADIKERI Srikanth a BURGET Lukáš. EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION. In: Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, Queensland: IEEE Signal Processing Society, 2015, s. 4445-4449. ISBN 978-1-4673-6997-8. Dostupné z: https://ieeexplore.ieee.org/document/7178811
Název česky
Využití podprostorových modelů Gaussovských směsí pro rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Motlíček Petr, Ing., Ph.D. (IDIAP)
Dey Subhadeep (IDIAP)
Madikeri Srikanth (IDIAP)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

rozpoznání mluvčího, i-vektory, subspace Gaussian mixture models, automatické rozpoznávání řeči

Abstrakt

Tento článek představuje přístup subprostorového gaussovského smíšeného modelu (SGMM) používaný jako pravděpodobnostní generativní model k odhadu reprezentací vektoru reproduktorů, které mají být následně použity v úloze ověření reproduktoru. Ukázalo se, že SGMM již výrazně překonávají tradiční HMM / GMM v aplikacích automatického rozpoznávání řeči (ASR). Rozšíření základního rámce SGMM umožňuje robustně odhadnout nízko-dimenzionální reproduktorové vektory a využít je pro adaptaci reproduktorů. Navrhujeme rámec pro ověřování reproduktorů založený na nízko-dimenzionálních reproduktorových vektorech odhadovaných pomocí SGMM, vyškolených ASR způsobem pomocí ručních přepisů. Abychom otestovali robustnost systému, vyhodnocujeme navržený přístup s ohledem na nejmodernější extraktor i-vektorů v hodnotící sadě NIST SRE 2010 a na čtyři různé podmínky promlčení délky: 3 s-10 s, 10 s -30 s, 30 s-60 s a plné (neořízené) promluvy. Experimentální výsledky ukazují, že zatímco systém i-vektorů pracuje lépe při zkrácených výrokech 3 s až 10 s a 10 s až 30 s, u SGMM je pozorováno znatelné zlepšení, zejména v době trvání úplné promluvy. Navrhovaný přístup SGMM nakonec vykazuje komplementární vlastnosti a lze jej tedy účinně spojit se systémem verifikace reproduktorů založeným na i-vektorech.

Rok
2015
Strany
4445-4449
Sborník
Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing
Konference
2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), Brisbane, AU
ISBN
978-1-4673-6997-8
Vydavatel
IEEE Signal Processing Society
Místo
South Brisbane, Queensland, AU
DOI
UT WoS
000427402904111
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB10952,
   author = "Petr Motl\'{i}\v{c}ek and Subhadeep Dey and Srikanth Madikeri and Luk\'{a}\v{s} Burget",
   title = "EMPLOYMENT OF SUBSPACE GAUSSIAN MIXTURE MODELS IN SPEAKER RECOGNITION",
   pages = "4445--4449",
   booktitle = "Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing",
   year = 2015,
   location = "South Brisbane, Queensland, AU",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-4673-6997-8",
   doi = "10.1109/ICASSP.2015.7178811",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/10952"
}
Nahoru