Detail publikace
ABC SYSTEM DESCRIPTION FOR NIST SRE 2024
Barahona Quirós Sara (UAM)
Boboš Dominik (Phonexia)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Cumani Sandro (POLITO)
Dahmane Mohamed (CRIM)
Han Jiangyu, M.Eng. (UPGM FIT VUT)
Hlaváček Miroslav (Phonexia)
Kodovský Martin (Phonexia)
Landini Federico Nicolás (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Pálka Petr, Bc. (UPGM FIT VUT)
Pavlíček Tomáš, Ing. (Phonexia)
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rajasekhar Gnana Praveen (CRIM)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Stafylakis Themos (OMILIA)
Zhang Lin, Ph.D. (FIT VUT)
Tento článek představuje příspěvek týmu ABC do hodnocení NIST SRE 2024, spolupráce mezi VUT, Polito, Phonexia, Omilia, UAM a CRIM. Náš tým se podílel na všech hodnotících stopách (pouze audio, pouze vizuální a audiovizuální) za pevných i otevřených podmínek. Vyvinuli jsme různé frontendy, backendy a strategie pro kalibraci a fúzi pro optimalizaci výkonu systému. Pevné a otevřené podmínky sdílejí některá řešení. V systémech pouze pro audio jsme použili varianty ResNet a nově představený model ReDimNet jako frontendy pro extrakci vložení. Poté jsme prozkoumali různé backendy včetně kosinového skórování, Pravděpodobnostní lineární diskriminační analýzy a Pairwise Support Vector Machine. Pro vizuální systémy jsme přijali rámec Insightface, využili jsme ResNet100 a MagFace předem trénované na datové sadě MS1MV2. Bylo použito kosinové skórování v rámci různých strategií, přičemž pro kalibraci i fúzi byla použita logistická regrese. Nakonec byly partitury z pouze audio a vizuálních systémů sloučeny pomocí logistické regrese pro předložení audio-vizuální stopě. V návaznosti na pevný stav zahrnoval otevřený stav vylepšení, jako jsou větší modely ResNet, další trénovací data z datové sady VoxBlink2 a předem trénovaný model základů XLS-R.
@INPROCEEDINGS{FITPUB13341, author = "Jahangir Alam and Sara Quir\'{o}s Barahona and Dominik Bobo\v{s} and Luk\'{a}\v{s} Burget and Sandro Cumani and Mohamed Dahmane and Jiangyu Han and Miroslav Hlav\'{a}\v{c}ek and Martin Kodovsk\'{y} and Nicol\'{a}s Federico Landini and Ladislav Mo\v{s}ner and Petr P\'{a}lka and Tom\'{a}\v{s} Pavl\'{i}\v{c}ek and Junyi Peng and Old\v{r}ich Plchot and Praveen Gnana Rajasekhar and A. Johan Rohdin and Anna Silnova and Themos Stafylakis and Lin Zhang", title = "ABC SYSTEM DESCRIPTION FOR NIST SRE 2024", pages = "1--9", booktitle = "Proceedings of NIST SRE 2024", year = 2024, location = "San Juan, PR", publisher = "National Institute of Standards and Technology", language = "english", url = "https://www.fit.vut.cz/research/publication/13341" }