Detail publikace
Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint
Carofilis Andrés (UNILEON)
Vanderreydt Geoffroy (IDLab - imec)
Khalil Driss (IDIAP)
Madikeri Srikanth (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Schuepbach Christof (armasuisse)
Modely s vlastním dohledem trénované s vysokou jazykovou rozmanitostí, jako je model XLS-R, lze efektivně vyladit pro úlohu rozpoznávání jazyka. Typicky se během školení přidává koncový klasifikátor následovaný vrstvou sdružování statistik. Běžně používané back-endové klasifikátory vyžadují natrénování velkého počtu parametrů, což není ideální v podmínkách omezených dat. V této práci zkoumáme back-endy s menšími parametry pomocí faktorizované neuronové sítě s časovým zpožděním (TDNN-F). Architektura TDNN-F je také integrována do modelů Emphasized Channel Attention, Propagation and Aggregation-TDNN (ECAPA-TDNN), označovaných jako ECAPA-TDNN-F, což snižuje počet parametrů o 30 až 50 % absolutně, s konkurenční přesností a beze změn. v minimálních nákladech. Výsledky ukazují, že ECAPA-TDNN-F lze rozšířit na úkoly, kde je ECAPA-TDNN vhodný. Testujeme také účinnost lineárního klasifikátoru a varianty, ortonormálního lineárního klasifikátoru, dříve používaného v systémech typu x-vector. Modely jsou trénovány s daty NIST LRE17 a vyhodnocovány na souborech dat NIST LRE17, LRE22 a ATCO2 LID. Oba lineární klasifikátory překonávají konvenční back-endy se zlepšením přesnosti mezi 0,9 % a 9,1 %
@INPROCEEDINGS{FITPUB13280, author = "Amrutha Prasad and Andr\'{e}s Carofilis and Geoffroy Vanderreydt and Driss Khalil and Srikanth Madikeri and Petr Motl\'{i}\v{c}ek and Christof Schuepbach", title = "Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint", pages = "11921--11925", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2024, location = "Seoul, KR", publisher = "IEEE Signal Processing Society", ISBN = "979-8-3503-4485-1", doi = "10.1109/ICASSP48485.2024.10446751", language = "english", url = "https://www.fit.vut.cz/research/publication/13280" }