Detail publikace

BUT Systems for IWSLT 2023 Marathi - Hindi Low Resource Speech Translation Task

KESIRAJU, S.; BENEŠ, K.; TIKHONOV, M.; ČERNOCKÝ, J. BUT Systems for IWSLT 2023 Marathi - Hindi Low Resource Speech Translation Task. In 20th International Conference on Spoken Language Translation, IWSLT 2023 - Proceedings of the Conference. Toronto (in-person and online): Association for Computational Linguistics, 2023. p. 227-234. ISBN: 978-1-959429-84-5.
Název česky
BUT Systémy pro IWSLT 2023 úlohu překladu řeči z maráthštiny do hindštiny
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Marathi, Hindi, Low Resource, Speech, Translation

Abstrakt

Tento článek popisuje systémy, které byly vytvořeny pro úlohu překladu řeči s malými zdroji, z maráthštiny do hindštiny. Náš primární systém je založen na systému přímého překladu řeči,
zatímco kontrastní systém je kaskádový.
Páteří obou systémů je 
Hindsko-maráthský dvojjazyčný systém ASR natrénovaný na 2790 hodinách nedokonale přepsané řeči. Systém přímého překladu řeči byl
přímo inicializován z ASR a poté doladěn
pro přímý překlad řeči (s pomocnou ztrátovou funkcí CTC) na překlad. Model strojového překladu
pro kaskádový systém je inicializován z napříč-jazykového jazykového modelu, který byl následně
doladěn pomocí 1,6 milionu paralelních vět. Všechny
naše systémy byly trénovány od nuly na veřejně
dostupných datových sadách. Nakonec používáme jazykový
model pro přeskórování n-nejlepších hypotéz. Náš primární systém dosáhl pořadě 30,5 a 39,6
BLEU, zatímco kontrastivní systém získal
21.7 a 28.6 BLEU na oficiální validační a testovací
sadě. Článek také uvádí
analýzu několika experimentů, které byly provedeny
a nastiňuje strategie pro zlepšení
překladu řeči ve scénářích s nízkými zdroji.

Rok
2023
Strany
227–234
Sborník
20th International Conference on Spoken Language Translation, IWSLT 2023 - Proceedings of the Conference
Konference
61. ročné stretnutie asociácie pre počítačovú lingvistiku, Toronto, CA
ISBN
978-1-959429-84-5
Vydavatel
Association for Computational Linguistics
Místo
Toronto (in-person and online)
DOI
EID Scopus
BibTeX
@inproceedings{BUT185198,
  author="Santosh {Kesiraju} and Karel {Beneš} and Maksim {Tikhonov} and Jan {Černocký}",
  title="BUT Systems for IWSLT 2023 Marathi - Hindi Low Resource Speech Translation Task",
  booktitle="20th International Conference on Spoken Language Translation, IWSLT 2023 -  Proceedings of the Conference",
  year="2023",
  pages="227--234",
  publisher="Association for Computational Linguistics",
  address="Toronto (in-person and online)",
  doi="10.18653/v1/2023.iwslt-1.19",
  isbn="978-1-959429-84-5",
  url="https://aclanthology.org/2023.iwslt-1.19.pdf"
}
Soubory
Nahoru