Detail publikace

Self-supervised Pre-training of Text Recognizers

KIŠŠ, M.; HRADIŠ, M. Self-supervised Pre-training of Text Recognizers. In Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024. Lecture Notes in Computer Science. Atény: Springer Nature Switzerland AG, 2024. p. 218-235. ISBN: 978-3-031-70545-8.
Název česky
Self-supervised předtrénování rozpoznávačů textu
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Self-supervised učení, rozpoznávání textu, předtrénování, OCR, HTR

Abstrakt

V tomto článku se zabýváme metodami self-supervised předtrénování pro
rozpoznávání textu dokumentů. V současné době lze pro mnoho výzkumných úloh,
včetně rozpoznávání textu, shromažďovat rozsáhlé neoznačené datové sady, ale
jejich anotace je nákladná. Proto se zkoumají metody využívající neoznačená data.
Studujeme self-supervised metody předtrénování založené na predikci maskovaných
štítků pomocí tří různých přístupů - kvantizace funkcí, VQ-VAE a postkvantizované
AE. Zkoumáme také přístupy společného zakódování s cíli VICReg a NT-Xent, pro
které navrhujeme techniku posunu obrazu, abychom zabránili zhroucení modelu, kdy
se spoléhá pouze na poziční kódování a zcela ignoruje vstupní obraz. Naše
experimenty provádíme na historických ručně psaných (Bentham) a historických
tištěných datových sadách především proto, abychom prozkoumali výhody technik
self-supervised předtrénování s různým množstvím anotovaných dat cílové domény.
Jako silné výchozí hodnoty používáme učení přenosem. Vyhodnocení ukazuje, že
self-supervised předtrénování na datech z cílové domény je velmi efektivní, ale
má problém překonat transferové učení z úzce souvisejících domén. Tento článek je
jedním z prvních výzkumů zkoumajících self-supervised předtrénování
v rozpoznávání textu dokumentů a věříme, že se stane základním kamenem pro
budoucí výzkum v této oblasti. Naši implementaci zkoumaných metod jsme
zpřístupnili veřejnosti na adrese https://github.com/DCGM/pero-pretraining.

Rok
2024
Strany
218–235
Sborník
Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024
Řada
Lecture Notes in Computer Science
Svazek
14807
Konference
International Conference on Document Analysis and Recognition, Atény, Řecko, GR
ISBN
978-3-031-70545-8
Vydavatel
Springer Nature Switzerland AG
Místo
Atény
DOI
UT WoS
001336396200013
EID Scopus
BibTeX
@inproceedings{BUT193312,
  author="Martin {Kišš} and Michal {Hradiš}",
  title="Self-supervised Pre-training of Text Recognizers",
  booktitle="Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024",
  year="2024",
  series="Lecture Notes in Computer Science",
  volume="14807",
  pages="218--235",
  publisher="Springer Nature Switzerland AG",
  address="Atény",
  doi="10.1007/978-3-031-70546-5\{_}13",
  isbn="978-3-031-70545-8",
  url="https://link.springer.com/chapter/10.1007/978-3-031-70546-5_13"
}
Nahoru