Detail publikace
Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Článek pojednává o Gaussovských meta-embeddincích pro efektivní skórování PLDA modelu s těžkým chvostem. Embeddingy ve strojovém učení jsou nízkodimenzionální reprezentace složitých vstupních vzorů s vlastností, že lze pro úlohy klasifikace a porovnání použít jednoduché geometrické operace, jako jsou euklidovské vzdálenosti a tečkové produkty. Představujeme metadata, která žijí v obecnějších vnitřních prostorech produktů a jsou navržena tak, aby lépe šířila nejistotu prostřednictvím zúženého místa pro vkládání. Tradiční vkládání se trénuje, aby maximalizovaly mezitřídy a minimalizovaly vzdálenosti v rámci třídy. Vkládání metadat je proškoleno, aby maximalizovalo propustnost relevantních informací. Jako důkaz koncepce v rozpoznávání řečníků odvozujeme extraktor ze známého generativního modelu Gaussian PLDA (GPLDA). Ukazujeme, že skóre poměru pravděpodobnosti GPLDA jsou dána vnitřními produkty Hilberta mezi Gaussovými funkcemi pravděpodobnosti, které nazýváme Gaussian meta-embeddings (GME). Extraktory pro vkládání metadat lze generativně nebo diskriminačně trénovat. GME extrahované GPLDA mají pevnou přesnost a nešíří nejistotu. Ukázali jsme, že zobecnění na těžce sledovaný PLDA dává GME s variabilními přesnostmi, které šíří nejistotu. Experimenty na NIST SRE 2010 a 2016 ukazují, že navrhovaná metoda aplikovaná na i-vektory bez normalizace délky je až o 20% přesnější než GPLDA aplikovaná na i-vektory normalizované na délku.
@INPROCEEDINGS{FITPUB11790, author = "Langenhoven Nikolaas Johan Brummer and Anna Silnova and Luk\'{a}\v{s} Burget and Themos Stafylakis", title = "Gaussian meta-embeddings for efficient scoring of a heavy-tailed PLDA model", pages = "349--356", booktitle = "Proceedings of Odyssey 2018", journal = "Proceedings of Odyssey: The Speaker and Language Recognition Workshop", volume = 2018, number = 6, year = 2018, location = "Les Sables d'Olonne, FR", publisher = "International Speech Communication Association", ISSN = "2312-2846", doi = "10.21437/Odyssey.2018-49", language = "english", url = "https://www.fit.vut.cz/research/publication/11790" }