Detail publikace

Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint

PRASAD, A.; CAROFILIS, A.; VANDERREYDT, G.; KHALIL, D.; MADIKERI, S.; MOTLÍČEK, P.; SCHUEPBACH, C. Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11921-11925. ISBN: 979-8-3503-4485-1.

Název česky

Fine-Tuning samoučicích modelů pro identifikaci jazyka pomocí ortonormálního omezení

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Prasad Amrutha (UPGM)
CAROFILIS, A.
VANDERREYDT, G.
KHALIL, D.
Madikeri Srikanth
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
SCHUEPBACH, C.

URL

Klíčová slova

Language Identification, Transformers, Wav2Vec2, fine-tuning, low-resource,
out-of-domain,

Abstrakt

Modely s vlastním dohledem trénované s vysokou jazykovou rozmanitostí, jako je
model XLS-R, lze efektivně vyladit pro úlohu rozpoznávání jazyka. Typicky se
během školení přidává koncový klasifikátor následovaný vrstvou sdružování
statistik. Běžně používané back-endové klasifikátory vyžadují natrénování velkého
počtu parametrů, což není ideální v podmínkách omezených dat. V této práci
zkoumáme back-endy s menšími parametry pomocí faktorizované neuronové sítě
s časovým zpožděním (TDNN-F). Architektura TDNN-F je také integrována do modelů
Emphasized Channel Attention, Propagation and Aggregation-TDNN (ECAPA-TDNN),
označovaných jako ECAPA-TDNN-F, což snižuje počet parametrů o 30 až 50 %
absolutně, s konkurenční přesností a beze změn. v minimálních nákladech. Výsledky
ukazují, že ECAPA-TDNN-F lze rozšířit na úkoly, kde je ECAPA-TDNN vhodný.
Testujeme také účinnost lineárního klasifikátoru a varianty, ortonormálního
lineárního klasifikátoru, dříve používaného v systémech typu x-vector. Modely
jsou trénovány s daty NIST LRE17 a vyhodnocovány na souborech dat NIST LRE17,
LRE22 a ATCO2 LID. Oba lineární klasifikátory překonávají konvenční back-endy se
zlepšením přesnosti mezi 0,9 % a 9,1 %

Rok

2024

Strany

11921–11925

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

Mezinárodní konference o akustice řeči..., Seoul, KR

ISBN

979-8-3503-4485-1

Vydavatel

IEEE Signal Processing Society

Místo

Seoul

DOI

10.1109/ICASSP48485.2024.10446751

EID Scopus

2-s2.0-85195416122

BibTeX

@inproceedings{BUT193354,
  author="PRASAD, A. and CAROFILIS, A. and VANDERREYDT, G. and KHALIL, D. and MADIKERI, S. and MOTLÍČEK, P. and SCHUEPBACH, C.",
  title="Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11921--11925",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446751",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446751"
}

Soubory

pdf prasad_icassp2024_fine-tuning.pdf 941 kB