Detail publikace
Reducing Domain mismatch in Self-supervised speech pre-training
Rosenberg Andrew (Google, Inc.)
Ramabhadran Bhuvana (Google, Inc.)
Zhang Yu (Google, Inc.)
Metody maskovaného modelování řeči (MSM), jako je wav2vec2 nebo w2v-BERT, se učí reprezentace přes rámce řeči, které jsou náhodně maskovány v rámci promluvy. I když tyto metody zlepšují výkon systémů automatického rozpoznávání řeči (ASR), mají jedno hlavní omezení. Zacházejí se všemi vzorky řeči bez dozoru se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace k tomu, aby se naučily smysluplné reprezentace. V této práci se tomuto omezení věnujeme. Navrhujeme ask2mask (ATM), nový přístup k zaměření na konkrétní vzorky během předtréninku MSM. ATM využívá externí model ASR nebo skórovací zařízení ke zvážení nekontrolovaných vstupních vzorků provedením jemnozrnného výběru dat. ATM provádí maskování vysoce spolehlivých vstupních snímků, jak je vybral hodnotitel. To umožňuje modelu naučit se smysluplné reprezentace. Provádíme dolaďovací experimenty na dvou dobře porovnaných korpusech: LibriSpeech (odpovídající předtréninkovým datům) a AMI a CHiME-6 (neodpovídající předtréninkovým datům). Výsledky potvrzují účinnost ATM na výrazné zlepšení rozpoznávacího výkonu za neshodných podmínek, přičemž stále poskytují mírná zlepšení za shodných podmínek.
@INPROCEEDINGS{FITPUB12853, author = "K. Murali Baskar and Andrew Rosenberg and Bhuvana Ramabhadran and Yu Zhang", title = "Reducing Domain mismatch in Self-supervised speech pre-training", pages = "3028--3032", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", number = 9, year = 2022, location = "Incheon, KR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2022-736", language = "english", url = "https://www.fit.vut.cz/research/publication/12853" }