Detail publikace

Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation

ALAM Jahangir, BURGET Lukáš, GLEMBEK Ondřej, MATĚJKA Pavel, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna a STAFYLAKIS Themos a kol. Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation. In: Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022). Beijing: International Speech Communication Association, 2022, s. 346-353. Dostupné z: https://www.isca-speech.org/archive/pdfs/odyssey_2022/alam22_odyssey.pdf

Název česky

Vývoj ABC systémů pro ročník 2021 NIST evalulace systémů pro rozpoznávání mluvčího

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Alam Jahangir (CRIM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
a další

URL

Klíčová slova

ověření mluvčího, rozpoznávání, evaluace

Abstrakt

V tomto příspěvku poskytujeme popis týmu ABC společné úsilí o rozvoj ověřování mluvčího systémy pro NIST Speaker Recognition Evaluation 2021 (NITSRE2021). Dvěma hlavními jsou mezijazyčné studie a studie napříč datovými soubory výzvy představené v NIST-SRE2021. Příspěvky ABC tým jsou výsledkem aktivní spolupráce výzkumníků z VUT, CRIM, Omilia a Innovatrics. Zúčastnili jsme se všech tří blízkých podmínek stopy pro pouze audio, audio-vizuální a vizuální ověření úkoly. Naše systémy pouze pro audio se řídí hlubokými reproduktory (např. x-vektory) s následným skórovacím paradigmatem PLDA. Jako vložení extraktoru vybíráme některé varianty zbytkové neuronové sítě (ResNet), neuronová síť s faktorovaným časovým zpožděním (FTDNN) a Architektury hybridních neuronových sítí (HNN). Vložení HNN extraktor využívá sítě CNN, LSTM a TDNN a zahrnuje víceúrovňová metoda sdružování globálních místních statistik v pořádku agregovat informace o mluvčích v krátkém časovém období a kontext na úrovni výpovědi. Naše pouze vizuální systémy jsou založeny na předem vyškolených extraktory embeddingu využívající některé varianty ResNet a bodování je založeno na kosinové vzdálenosti. Při vývoji an audio-vizuální systém, jednoduše pojistíme výstupy nezávislého audia a vizuální systémy. Naše finální předložené systémy jsou získány provedením fúze na úrovni skóre subsystémů následované skóre kalibrace.

Rok

2022

Strany

346-353

Sborník

Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)

Konference

Odyssey 2022: The Speaker and Language Recognition Workshop, Beijing, CN

Vydavatel

International Speech Communication Association

Místo

Beijing, CN

DOI

10.21437/Odyssey.2022-48

BibTeX

@INPROCEEDINGS{FITPUB12843,
   author = "Jahangir Alam and Luk\'{a}\v{s} Burget and Ond\v{r}ej Glembek and Pavel Mat\v{e}jka and Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Anna Silnova and Themos Stafylakis and et al.",
   title = "Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation",
   pages = "346--353",
   booktitle = "Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)",
   year = 2022,
   location = "Beijing, CN",
   publisher = "International Speech Communication Association",
   doi = "10.21437/Odyssey.2022-48",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12843"
}