Detail publikace

Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model

BRUMMER Johan Nikolaas Langenhoven, SILNOVA Anna, BURGET Lukáš a STAFYLAKIS Themos. Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model. In: Proceedings of Odyssey 2018. Les Sables d'Olonne: International Speech Communication Association, 2018, s. 349-356. ISSN 2312-2846.
Název česky
Gaussovské meta-embeddingy pro efektivní skórování PLDA modelu s těžkým chvostem
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Brummer Johan Nikolaas Langenhoven, Dr. (Phonexia)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
URL
Abstrakt

Článek pojednává o Gaussovských meta-embeddincích pro efektivní skórování PLDA modelu s těžkým chvostem. Embeddingy ve strojovém učení jsou nízkodimenzionální reprezentace složitých vstupních vzorů s vlastností, že lze pro úlohy klasifikace a porovnání použít jednoduché geometrické operace, jako jsou euklidovské vzdálenosti a tečkové produkty. Představujeme metadata, která žijí v obecnějších vnitřních prostorech produktů a jsou navržena tak, aby lépe šířila nejistotu prostřednictvím zúženého místa pro vkládání. Tradiční vkládání se trénuje, aby maximalizovaly mezitřídy a minimalizovaly vzdálenosti v rámci třídy. Vkládání metadat je proškoleno, aby maximalizovalo propustnost relevantních informací. Jako důkaz koncepce v rozpoznávání řečníků odvozujeme extraktor ze známého generativního modelu Gaussian PLDA (GPLDA). Ukazujeme, že skóre poměru pravděpodobnosti GPLDA jsou dána vnitřními produkty Hilberta mezi Gaussovými funkcemi pravděpodobnosti, které nazýváme Gaussian meta-embeddings (GME). Extraktory pro vkládání metadat lze generativně nebo diskriminačně trénovat. GME extrahované GPLDA mají pevnou přesnost a nešíří nejistotu. Ukázali jsme, že zobecnění na těžce sledovaný PLDA dává GME s variabilními přesnostmi, které šíří nejistotu. Experimenty na NIST SRE 2010 a 2016 ukazují, že navrhovaná metoda aplikovaná na i-vektory bez normalizace délky je až o 20% přesnější než GPLDA aplikovaná na i-vektory normalizované na délku.

Rok
2018
Strany
349-356
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop, roč. 2018, č. 6, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2018
Konference
Odyssey 2018, Les Sables d'Olonne, France, FR
Vydavatel
International Speech Communication Association
Místo
Les Sables d'Olonne, FR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11790,
   author = "Langenhoven Nikolaas Johan Brummer and Anna Silnova and Luk\'{a}\v{s} Burget and Themos Stafylakis",
   title = "Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model",
   pages = "349--356",
   booktitle = "Proceedings of Odyssey 2018",
   journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop",
   volume = 2018,
   number = 6,
   year = 2018,
   location = "Les Sables d'Olonne, FR",
   publisher = "International Speech Communication Association",
   ISSN = "2312-2846",
   doi = "10.21437/Odyssey.2018-49",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11790"
}
Nahoru