Detail publikace

Jointly Trained Transformers Models for Spoken Language Translation

VYDANA Hari K., KARAFIÁT Martin, ŽMOLÍKOVÁ Kateřina, BURGET Lukáš a ČERNOCKÝ Jan. Jointly Trained Transformers Models for Spoken Language Translation. In: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021, s. 7513-7517. ISBN 978-1-7281-7605-5.
Název česky
Společně trénované modely založené na Transformerech pro automatický překlad mluvené řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Abstrakt

End-to-end a kaskádové (ASR-MT) systémy překladu mluveného jazyka (SLT) dosahují srovnatelných výkonů, avšak při překládání hypotézy ASR ve srovnání s použitím vstupního textu Oracle je pozorována velká degradace. V této práci je snížení výkonu sníženo vytvořením end-to-end diferencovatelného kanálu mezi systémy ASR a MT. V této práci trénujeme systémy SLT s cílem ASR jako pomocnou ztrátu a obě sítě jsou propojeny prostřednictvím neurálních skrytých reprezentací. Toto školení má end-to-end diferencovatelnou cestu s ohledem na funkci konečného cíle a využívá cíl ASR pro lepší optimalizaci. Tato architektura vylepšila skóre BLEU z 41,21 na 44,69. Sestavení navrhované architektury s nezávisle trénovanými systémy ASR a MT dále zlepšilo skóre BLEU ze 44,69 na 46,9. Všechny experimenty jsou hlášeny na úkolu překladu řeči z angličtiny do portugalštiny pomocí korpusu How2. Konečné skóre BLEU je srovnatelné s nejlepším systémem překladu řeči v datové sadě How2 bez použití jakýchkoli dalších tréninkových dat a jazykového modelu a použití méně parametrů.

Rok
2021
Strany
7513-7517
Sborník
ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Konference
2021 IEEE International Conference on Acoustics, Speech and Signal Processing, Toronto, CA
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto, Ontario, CA
DOI
UT WoS
000704288407158
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12522,
   author = "K. Hari Vydana and Martin Karafi\'{a}t and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "Jointly Trained Transformers Models for Spoken Language Translation",
   pages = "7513--7517",
   booktitle = "ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
   year = 2021,
   location = "Toronto, Ontario, CA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-7605-5",
   doi = "10.1109/ICASSP39728.2021.9414159",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12522"
}
Nahoru