Detail publikace
Improving Noise Robustness of Automatic Speech Recognition via Parallel Data and Teacher-student Learning
Wu Minhua (AmazonCom)
Raju Anirudh (AmazonCom)
Parthasarathi Sree Hari Krishnan (AmazonCom)
Kumatani Kenichi (AmazonCom)
Sundaram Shiva (AmazonCom)
Maas Roland (AmazonCom)
Hoffmeister Björn (AmazonCom)
Pro aplikace rozpoznávání řeči v reálném světě je robustnost hluku stále výzvou. V této práci přijímáme techniku učení učitele (T / S) využívající paralelní čistý a hlučný korpus pro zlepšení výkonu automatického rozpoznávání řeči (ASR) pod multimediálním šumem. Navíc používáme metodu výběru logitů, která zachovává pouze nejvyšší hodnoty k, abychom zabránili nesprávnému zdůraznění znalostí učitele a snížili šířku pásma potřebnou pro přenos dat. Začlenili jsme až 8 000 hodin nepřepisovaných dat pro trénink a prezentujeme naše výsledky na sekvenčně trénovaných modelech kromě těch, které byly vyškoleny na křížovou entropii. Nejlepší studentský model se sekvenčním tréninkem přináší snížení relativní chybovosti slov (WER) přibližně o 10,1%, 28,7% a 19,6% na našich čistých, simulovaných hlučných a reálných testovacích sadách ve srovnání se sekvenčně vyškoleným učitelem.
@INPROCEEDINGS{FITPUB12098, author = "Ladislav Mo\v{s}ner and Minhua Wu and Anirudh Raju and Krishnan Hari Sree Parthasarathi and Kenichi Kumatani and Shiva Sundaram and Roland Maas and Bj{\"{o}}rn Hoffmeister", title = "Improving Noise Robustness of Automatic Speech Recognition via Parallel Data and Teacher-student Learning", pages = "6475--6479", booktitle = "Proceedings of ICASSP", year = 2019, location = "Brighton, GB", publisher = "IEEE Signal Processing Society", ISBN = "978-1-5386-4658-8", doi = "10.1109/ICASSP.2019.8683422", language = "english", url = "https://www.fit.vut.cz/research/publication/12098" }