Detail publikace
Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings
Swart Albert du Preez (Speechly)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Při rozpoznávání mluvčího, kdy jsou segmenty řeči mapovány na vložené hodnoty na jednotkové hyperploše, se běžně používají dva skórovací podklady, a to kosinové skórování nebo PLDA. Obě mají v závislosti na kontextu své výhody i nevýhody. Kosinové skórování přirozeně vyplývá ze sférické geometrie, ale pro PLDA je požehnáním smíšená normalizace délky, která gaussovsky upravuje rozdělení mezi mluvčími, ale porušuje předpoklad rozdělení nezávislého na mluvčím uvnitř mluvčího. Navrhujeme PSDA, analogii PLDA, která používá Von Misesovo-Fisherovo rozdělení na hypersféře pro rozdělení uvnitř i mezi třídami. Ukazujeme, jak samosouvislost tohoto rozdělení dává uzavřený tvar skóre pravděpodobnostního poměru, což z něj činí drop-in náhradu za PLDA v době skórování. Lze skórovat všechny druhy pokusů, včetně ověřování s jedním a více záznamy, a také složitější poměry pravděpodobnosti, které lze použít při shlukování a diarizaci. Učení se provádí pomocí EM-algoritmu s aktualizacemi v uzavřeném tvaru. Vysvětlíme model a představíme několik prvních experimentů.
@INPROCEEDINGS{FITPUB12845, author = "Langenhoven Nikolaas Johan Brummer and Preez du Albert Swart and Ladislav Mo\v{s}ner and Anna Silnova and Old\v{r}ich Plchot and Themos Stafylakis and Luk\'{a}\v{s} Burget", title = "Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings", pages = "1446--1450", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2022, number = 9, year = 2022, location = "Incheon, KR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2022-731", language = "english", url = "https://www.fit.vut.cz/research/publication/12845" }