Detail publikace
Unsupervised Language Model Adaptation for Speech Recognition with no Extra Resources
Irie Kazuki (RWTH)
Beck Eugen (RWTH)
Schlüter Ralf, Dr., AD (RWTH)
Ney Hermann (RWTH)
Klasicky jsou modely automatického rozpoznávání řeči (ASR) rozloženy na akustické modely a jazykové modely (LM). LM obvykle využívají lingvistickou strukturu na čistě textové úrovni a obvykle silně přispívají k výkonu systémů ASR. LM jsou odhadovány na velké množství textových dat pokrývajících cílovou doménu. Většina promluv se však týká konkrétnějších témat, např. při utužování použité slovní zásoby. Proto je žádoucí, aby byl LM přizpůsoben tématu výpovědi. Předchozí práce to dosahuje procházením dodatečných dat z webu nebo použitím značného množství předchozích řečových dat k trénování tématicky specifického LM. Navrhujeme způsob, jak přímo upravit LM pomocí cílové promluvy, která má být rozpoznána. Odpovídající přizpůsobení musí být provedeno bez dozoru nebo automaticky pod dohledem na základě hlasového vstupu. Pro robustní řešení odpovídajících chyb používáme kódování témat z nedávno navrženého podprostorového multinomického modelu. Tento model rovněž vylučuje potřebu explicitního označování témat během výcviku nebo uznání, čímž se navrhovaná metoda přímo používá. Předvedeme výkon metody na korpusu Librispeech, který se skládá ze čtených ction knih, a diskutujeme jeho chování kvalitativně.
@INPROCEEDINGS{FITPUB12102, author = "Karel Bene\v{s} and Kazuki Irie and Eugen Beck and Ralf Schl{\"{u}}ter and Hermann Ney", title = "Unsupervised Language Model Adaptation for Speech Recognition with no Extra Resources", pages = "954--957", booktitle = "Proceedings of DAGA 2019", year = 2019, location = "Rostock, DE", publisher = "DEGA Head office, Deutsche Gesellschaft f{\"{u}}r Akustik", ISBN = "978-3-939296-14-0", language = "english", url = "https://www.fit.vut.cz/research/publication/12102" }