Detail publikace

Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint

PRASAD Amrutha, CAROFILIS Andrés, VANDERREYDT Geoffroy, KHALIL Driss, MADIKERI Srikanth, MOTLÍČEK Petr a SCHUEPBACH Christof. Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 11921-11925. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446751
Název česky
Fine-Tuning samoučicích modelů pro identifikaci jazyka pomocí ortonormálního omezení
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Prasad Amrutha (UPGM FIT VUT)
Carofilis Andrés (UNILEON)
Vanderreydt Geoffroy (IDLab - imec)
Khalil Driss (IDIAP)
Madikeri Srikanth (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Schuepbach Christof (armasuisse)
URL
Abstrakt

Modely s vlastním dohledem trénované s vysokou jazykovou rozmanitostí, jako je model XLS-R, lze efektivně vyladit pro úlohu rozpoznávání jazyka. Typicky se během školení přidává koncový klasifikátor následovaný vrstvou sdružování statistik. Běžně používané back-endové klasifikátory vyžadují natrénování velkého počtu parametrů, což není ideální v podmínkách omezených dat. V této práci zkoumáme back-endy s menšími parametry pomocí faktorizované neuronové sítě s časovým zpožděním (TDNN-F). Architektura TDNN-F je také integrována do modelů Emphasized Channel Attention, Propagation and Aggregation-TDNN (ECAPA-TDNN), označovaných jako ECAPA-TDNN-F, což snižuje počet parametrů o 30 až 50 % absolutně, s konkurenční přesností a beze změn. v minimálních nákladech. Výsledky ukazují, že ECAPA-TDNN-F lze rozšířit na úkoly, kde je ECAPA-TDNN vhodný. Testujeme také účinnost lineárního klasifikátoru a varianty, ortonormálního lineárního klasifikátoru, dříve používaného v systémech typu x-vector. Modely jsou trénovány s daty NIST LRE17 a vyhodnocovány na souborech dat NIST LRE17, LRE22 a ATCO2 LID. Oba lineární klasifikátory překonávají konvenční back-endy se zlepšením přesnosti mezi 0,9 % a 9,1 %

Rok
2024
Strany
11921-11925
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13280,
   author = "Amrutha Prasad and Andr\'{e}s Carofilis and Geoffroy Vanderreydt and Driss Khalil and Srikanth Madikeri and Petr Motl\'{i}\v{c}ek and Christof Schuepbach",
   title = "Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint",
   pages = "11921--11925",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10446751",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13280"
}
Nahoru