Detail publikace

ABC SYSTEM DESCRIPTION FOR NIST SRE 2024

ALAM Jahangir, BARAHONA Quirós Sara, BOBOŠ Dominik, BURGET Lukáš, CUMANI Sandro, DAHMANE Mohamed, HAN Jiangyu, HLAVÁČEK Miroslav, KODOVSKÝ Martin, LANDINI Federico Nicolás, MOŠNER Ladislav, PÁLKA Petr, PAVLÍČEK Tomáš, PENG Junyi, PLCHOT Oldřich, RAJASEKHAR Gnana Praveen, ROHDIN Johan A., SILNOVA Anna, STAFYLAKIS Themos a ZHANG Lin. ABC SYSTEM DESCRIPTION FOR NIST SRE 2024. In: Proceedings of NIST SRE 2024. San Juan: National Institute of Standards and Technology, 2024, s. 1-9.
Název česky
Popis ABC systému pro NIST SRE 2024 evaluace
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Alam Jahangir (CRIM)
Barahona Quirós Sara (UAM)
Boboš Dominik (Phonexia)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Cumani Sandro (POLITO)
Dahmane Mohamed (CRIM)
Han Jiangyu, M.Eng. (UPGM FIT VUT)
Hlaváček Miroslav (Phonexia)
Kodovský Martin (Phonexia)
Landini Federico Nicolás (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Pálka Petr, Bc. (UPGM FIT VUT)
Pavlíček Tomáš, Ing. (Phonexia)
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rajasekhar Gnana Praveen (CRIM)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Zhang Lin, Ph.D. (FIT VUT)
URL
Abstrakt

Tento článek představuje příspěvek týmu ABC do hodnocení NIST SRE 2024, spolupráce mezi VUT, Polito, Phonexia, Omilia, UAM a CRIM. Náš tým se podílel na všech hodnotících stopách (pouze audio, pouze vizuální a audiovizuální) za pevných i otevřených podmínek. Vyvinuli jsme různé frontendy, backendy a strategie pro kalibraci a fúzi pro optimalizaci výkonu systému. Pevné a otevřené podmínky sdílejí některá řešení. V systémech pouze pro audio jsme použili varianty ResNet a nově představený model ReDimNet jako frontendy pro extrakci vložení. Poté jsme prozkoumali různé backendy včetně kosinového skórování, Pravděpodobnostní lineární diskriminační analýzy a Pairwise Support Vector Machine. Pro vizuální systémy jsme přijali rámec Insightface, využili jsme ResNet100 a MagFace předem trénované na datové sadě MS1MV2. Bylo použito kosinové skórování v rámci různých strategií, přičemž pro kalibraci i fúzi byla použita logistická regrese. Nakonec byly partitury z pouze audio a vizuálních systémů sloučeny pomocí logistické regrese pro předložení audio-vizuální stopě. V návaznosti na pevný stav zahrnoval otevřený stav vylepšení, jako jsou větší modely ResNet, další trénovací data z datové sady VoxBlink2 a předem trénovaný model základů XLS-R.

Rok
2024
Strany
1-9
Sborník
Proceedings of NIST SRE 2024
Konference
2024 NIST Speaker Recognition Evaluation (SRE) Workshop, Hyatt Place San Juan 580 Ave. Manuel Fernandez Juncos San Juan, PR 00907, PR
Vydavatel
National Institute of Standards and Technology
Místo
San Juan, PR
BibTeX
@INPROCEEDINGS{FITPUB13341,
   author = "Jahangir Alam and Sara Quir\'{o}s Barahona and Dominik Bobo\v{s} and Luk\'{a}\v{s} Burget and Sandro Cumani and Mohamed Dahmane and Jiangyu Han and Miroslav Hlav\'{a}\v{c}ek and Martin Kodovsk\'{y} and Nicol\'{a}s Federico Landini and Ladislav Mo\v{s}ner and Petr P\'{a}lka and Tom\'{a}\v{s} Pavl\'{i}\v{c}ek and Junyi Peng and Old\v{r}ich Plchot and Praveen Gnana Rajasekhar and A. Johan Rohdin and Anna Silnova and Themos Stafylakis and Lin Zhang",
   title = "ABC SYSTEM DESCRIPTION FOR NIST SRE 2024",
   pages = "1--9",
   booktitle = "Proceedings of NIST SRE 2024",
   year = 2024,
   location = "San Juan, PR",
   publisher = "National Institute of Standards and Technology",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13341"
}
Nahoru