Detail publikace

Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint

PRASAD, A.; CAROFILIS, A.; VANDERREYDT, G.; KHALIL, D.; MADIKERI, S.; MOTLÍČEK, P.; SCHUEPBACH, C. Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11921-11925. ISBN: 979-8-3503-4485-1.
Název česky
Fine-Tuning samoučicích modelů pro identifikaci jazyka pomocí ortonormálního omezení
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Prasad Amrutha (UPGM)
CAROFILIS, A.
VANDERREYDT, G.
KHALIL, D.
Madikeri Srikanth
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
SCHUEPBACH, C.
URL
Klíčová slova

Language Identification, Transformers, Wav2Vec2, fine-tuning, low-resource, out-of-domain,

Abstrakt

Modely s vlastním dohledem trénované s vysokou jazykovou rozmanitostí, jako je model XLS-R, lze efektivně vyladit pro úlohu rozpoznávání jazyka. Typicky se během školení přidává koncový klasifikátor následovaný vrstvou sdružování statistik. Běžně používané back-endové klasifikátory vyžadují natrénování velkého počtu parametrů, což není ideální v podmínkách omezených dat. V této práci zkoumáme back-endy s menšími parametry pomocí faktorizované neuronové sítě s časovým zpožděním (TDNN-F). Architektura TDNN-F je také integrována do modelů Emphasized Channel Attention, Propagation and Aggregation-TDNN (ECAPA-TDNN), označovaných jako ECAPA-TDNN-F, což snižuje počet parametrů o 30 až 50 % absolutně, s konkurenční přesností a beze změn. v minimálních nákladech. Výsledky ukazují, že ECAPA-TDNN-F lze rozšířit na úkoly, kde je ECAPA-TDNN vhodný. Testujeme také účinnost lineárního klasifikátoru a varianty, ortonormálního lineárního klasifikátoru, dříve používaného v systémech typu x-vector. Modely jsou trénovány s daty NIST LRE17 a vyhodnocovány na souborech dat NIST LRE17, LRE22 a ATCO2 LID. Oba lineární klasifikátory překonávají konvenční back-endy se zlepšením přesnosti mezi 0,9 % a 9,1 %

Rok
2024
Strany
11921–11925
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT193354,
  author="PRASAD, A. and CAROFILIS, A. and VANDERREYDT, G. and KHALIL, D. and MADIKERI, S. and MOTLÍČEK, P. and SCHUEPBACH, C.",
  title="Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11921--11925",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446751",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446751"
}
Soubory
Nahoru