Detail publikace

Speech and Language Recognition with Low-rank Adaptation of Pretrained Models

PRASAD Amrutha, MADIKERI Srikanth, KHALIL Driss, MOTLÍČEK Petr a SCHUEPBACH Christof. Speech and Language Recognition with Low-rank Adaptation of Pretrained Models. In: Proceedings of Interspeech. Kos Island: International Speech Communication Association, 2024, s. 2825-2829. ISSN 1990-9772. Dostupné z: https://www.isca-archive.org/interspeech_2024/prasad24_interspeech.html
Název česky
Rozpoznávání řeči a jazyka s Low-rank adaptací předtrénovaných modelů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Prasad Amrutha (UPGM FIT VUT)
Madikeri Srikanth (IDIAP)
Khalil Driss (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Schuepbach Christof (armasuisse)
URL
Abstrakt

Doladění velkých předtrénovaných modelů vyžaduje značné výpočetní zdroje a představuje praktická omezení. Většinu z celkového počtu parametrů v těchto modelech využívají plně propojené vrstvy. V této práci zvažujeme použití semi-ortogonálního omezení, po kterém následuje úplné doladění plně propojených vrstev, což výrazně snižuje parametry modelu bez obětování účinnosti v následných úlohách. Konkrétně uvažujeme modely wav2vec2.0 XLS-R a Whisper pro automatické rozpoznávání řeči a rozpoznávání jazyka. Naše výsledky ukazují, že můžeme zmenšit velikost modelu přibližně o 24 % jak během tréninku, tak během doby inference s absolutním poklesem výkonu o 0,7 % pro XLS-R a bez poklesu výkonu pro Whisper pro ASR. V kombinaci s výkonnostně efektivním tréninkem s adaptéry nízké úrovně lze požadavky na zdroje pro trénink dále snížit až o 90 %

Rok
2024
Strany
2825-2829
Časopis
Proceedings of Interspeech - on-line, roč. 2024, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech
Konference
Interspeech Conference, Kos, GR
Vydavatel
International Speech Communication Association
Místo
Kos Island, GR
DOI
BibTeX
@INPROCEEDINGS{FITPUB13296,
   author = "Amrutha Prasad and Srikanth Madikeri and Driss Khalil and Petr Motl\'{i}\v{c}ek and Christof Schuepbach",
   title = "Speech and Language Recognition with Low-rank Adaptation of Pretrained Models",
   pages = "2825--2829",
   booktitle = "Proceedings of Interspeech",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2024,
   number = 9,
   year = 2024,
   location = "Kos Island, GR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2024-2187",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13296"
}
Nahoru