Detail publikace

ABC SYSTEM DESCRIPTION FOR NIST SRE 2024

ALAM, J.; BARAHONA QUIRÓS, S.; BOBOŠ, D.; BURGET, L.; CUMANI, S.; DAHMANE, M.; HAN, J.; HLAVÁČEK, M.; KODOVSKÝ, M.; LANDINI, F.; MOŠNER, L.; PÁLKA, P.; PAVLÍČEK, T.; PENG, J.; PLCHOT, O.; RAJASEKHAR, P.; ROHDIN, J.; SILNOVA, A.; STAFYLAKIS, T.; ZHANG, L. ABC SYSTEM DESCRIPTION FOR NIST SRE 2024. Proceedings of NIST SRE 2024. San Juan: National Institute of Standards and Technology, 2024. p. 1-9.
Název česky
Popis ABC systému pro NIST SRE 2024 evaluace
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Alam Jahangir
BARAHONA QUIRÓS, S.
Boboš Dominik, Ing.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Cumani Sandro, Ph.D.
DAHMANE, M.
Han Jiangyu (UPGM)
HLAVÁČEK, M.
KODOVSKÝ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Mošner Ladislav, Ing. (UPGM)
Pálka Petr, Bc. (UPGM)
Pavlíček Tomáš, Ing.
Peng Junyi (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
RAJASEKHAR, P.
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Zhang Lin, Ph.D.
URL
Klíčová slova

NIST, speaker, recognition, evaluation

Abstrakt

Tento článek představuje příspěvek týmu ABC do hodnocení NIST SRE 2024, spolupráce mezi VUT, Polito, Phonexia, Omilia, UAM a CRIM. Náš tým se podílel na všech hodnotících stopách (pouze audio, pouze vizuální a audiovizuální) za pevných i otevřených podmínek. Vyvinuli jsme různé frontendy, backendy a strategie pro kalibraci a fúzi pro optimalizaci výkonu systému. Pevné a otevřené podmínky sdílejí některá řešení. V systémech pouze pro audio jsme použili varianty ResNet a nově představený model ReDimNet jako frontendy pro extrakci vložení. Poté jsme prozkoumali různé backendy včetně kosinového skórování, Pravděpodobnostní lineární diskriminační analýzy a Pairwise Support Vector Machine. Pro vizuální systémy jsme přijali rámec Insightface, využili jsme ResNet100 a MagFace předem trénované na datové sadě MS1MV2. Bylo použito kosinové skórování v rámci různých strategií, přičemž pro kalibraci i fúzi byla použita logistická regrese. Nakonec byly partitury z pouze audio a vizuálních systémů sloučeny pomocí logistické regrese pro předložení audio-vizuální stopě. V návaznosti na pevný stav zahrnoval otevřený stav vylepšení, jako jsou větší modely ResNet, další trénovací data z datové sady VoxBlink2 a předem trénovaný model základů XLS-R.

Rok
2024
Strany
1–9
Sborník
Proceedings of NIST SRE 2024
Konference
2024 NIST konference k výsledkům evaluace rozpoznávání řečníka, Hyatt Place San Juan 580 Ave. Manuel Fernandez Juncos San Juan, PR 00907, PR
Vydavatel
National Institute of Standards and Technology
Místo
San Juan
BibTeX
@inproceedings{BUT193961,
  author="ALAM, J. and BARAHONA QUIRÓS, S. and BOBOŠ, D. and BURGET, L. and CUMANI, S. and DAHMANE, M. and HAN, J. and HLAVÁČEK, M. and KODOVSKÝ, M. and LANDINI, F. and MOŠNER, L. and PÁLKA, P. and PAVLÍČEK, T. and PENG, J. and PLCHOT, O. and RAJASEKHAR, P. and ROHDIN, J. and SILNOVA, A. and STAFYLAKIS, T. and ZHANG, L.",
  title="ABC SYSTEM DESCRIPTION FOR NIST SRE 2024",
  booktitle="Proceedings of NIST SRE 2024",
  year="2024",
  pages="1--9",
  publisher="National Institute of Standards and Technology",
  address="San Juan",
  url="https://www.fit.vut.cz/research/publication/13341/"
}
Soubory
Nahoru