Detail publikace
Jointly Trained Transformers Models for Spoken Language Translation
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
End-to-end a kaskádové (ASR-MT) systémy překladu mluveného jazyka (SLT) dosahují srovnatelných výkonů, avšak při překládání hypotézy ASR ve srovnání s použitím vstupního textu Oracle je pozorována velká degradace. V této práci je snížení výkonu sníženo vytvořením end-to-end diferencovatelného kanálu mezi systémy ASR a MT. V této práci trénujeme systémy SLT s cílem ASR jako pomocnou ztrátu a obě sítě jsou propojeny prostřednictvím neurálních skrytých reprezentací. Toto školení má end-to-end diferencovatelnou cestu s ohledem na funkci konečného cíle a využívá cíl ASR pro lepší optimalizaci. Tato architektura vylepšila skóre BLEU z 41,21 na 44,69. Sestavení navrhované architektury s nezávisle trénovanými systémy ASR a MT dále zlepšilo skóre BLEU ze 44,69 na 46,9. Všechny experimenty jsou hlášeny na úkolu překladu řeči z angličtiny do portugalštiny pomocí korpusu How2. Konečné skóre BLEU je srovnatelné s nejlepším systémem překladu řeči v datové sadě How2 bez použití jakýchkoli dalších tréninkových dat a jazykového modelu a použití méně parametrů.
@INPROCEEDINGS{FITPUB12522, author = "K. Hari Vydana and Martin Karafi\'{a}t and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Jointly Trained Transformers Models for Spoken Language Translation", pages = "7513--7517", booktitle = "ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)", year = 2021, location = "Toronto, Ontario, CA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-7605-5", doi = "10.1109/ICASSP39728.2021.9414159", language = "english", url = "https://www.fit.vut.cz/research/publication/12522" }