Detail publikace
Speech and Language Recognition with Low-rank Adaptation of Pretrained Models
Madikeri Srikanth (IDIAP)
Khalil Driss (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Schuepbach Christof (armasuisse)
Doladění velkých předtrénovaných modelů vyžaduje značné výpočetní zdroje a představuje praktická omezení. Většinu z celkového počtu parametrů v těchto modelech využívají plně propojené vrstvy. V této práci zvažujeme použití semi-ortogonálního omezení, po kterém následuje úplné doladění plně propojených vrstev, což výrazně snižuje parametry modelu bez obětování účinnosti v následných úlohách. Konkrétně uvažujeme modely wav2vec2.0 XLS-R a Whisper pro automatické rozpoznávání řeči a rozpoznávání jazyka. Naše výsledky ukazují, že můžeme zmenšit velikost modelu přibližně o 24 % jak během tréninku, tak během doby inference s absolutním poklesem výkonu o 0,7 % pro XLS-R a bez poklesu výkonu pro Whisper pro ASR. V kombinaci s výkonnostně efektivním tréninkem s adaptéry nízké úrovně lze požadavky na zdroje pro trénink dále snížit až o 90 %
@INPROCEEDINGS{FITPUB13296, author = "Amrutha Prasad and Srikanth Madikeri and Driss Khalil and Petr Motl\'{i}\v{c}ek and Christof Schuepbach", title = "Speech and Language Recognition with Low-rank Adaptation of Pretrained Models", pages = "2825--2829", booktitle = "Proceedings of Interspeech", journal = "Proceedings of Interspeech - on-line", volume = 2024, number = 9, year = 2024, location = "Kos Island, GR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2024-2187", language = "english", url = "https://www.fit.vut.cz/research/publication/13296" }