Detail publikace

Self-supervised Pre-training of Text Recognizers

KIŠŠ, M.; HRADIŠ, M. Self-supervised Pre-training of Text Recognizers. In Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024. Lecture Notes in Computer Science. Atény: Springer Nature Switzerland AG, 2024. p. 218-235. ISBN: 978-3-031-70545-8.

Název česky

Self-supervised předtrénování rozpoznávačů textu

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Kišš Martin, Ing. (UPGM)
Hradiš Michal, Ing., Ph.D. (UPGM)

URL

https://link.springer.com/chapter/10.1007/978-3-031-70546-5_13

Klíčová slova

Self-supervised učení, rozpoznávání textu, předtrénování, OCR, HTR

Abstrakt

V tomto článku se zabýváme metodami self-supervised předtrénování pro
rozpoznávání textu dokumentů. V současné době lze pro mnoho výzkumných úloh,
včetně rozpoznávání textu, shromažďovat rozsáhlé neoznačené datové sady, ale
jejich anotace je nákladná. Proto se zkoumají metody využívající neoznačená data.
Studujeme self-supervised metody předtrénování založené na predikci maskovaných
štítků pomocí tří různých přístupů - kvantizace funkcí, VQ-VAE a postkvantizované
AE. Zkoumáme také přístupy společného zakódování s cíli VICReg a NT-Xent, pro
které navrhujeme techniku posunu obrazu, abychom zabránili zhroucení modelu, kdy
se spoléhá pouze na poziční kódování a zcela ignoruje vstupní obraz. Naše
experimenty provádíme na historických ručně psaných (Bentham) a historických
tištěných datových sadách především proto, abychom prozkoumali výhody technik
self-supervised předtrénování s různým množstvím anotovaných dat cílové domény.
Jako silné výchozí hodnoty používáme učení přenosem. Vyhodnocení ukazuje, že
self-supervised předtrénování na datech z cílové domény je velmi efektivní, ale
má problém překonat transferové učení z úzce souvisejících domén. Tento článek je
jedním z prvních výzkumů zkoumajících self-supervised předtrénování
v rozpoznávání textu dokumentů a věříme, že se stane základním kamenem pro
budoucí výzkum v této oblasti. Naši implementaci zkoumaných metod jsme
zpřístupnili veřejnosti na adrese https://github.com/DCGM/pero-pretraining.

Rok

2024

Strany

218–235

Sborník

Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024

Řada

Lecture Notes in Computer Science

Svazek

14807

Konference

International Conference on Document Analysis and Recognition, Atény, Řecko, GR

ISBN

978-3-031-70545-8

Vydavatel

Springer Nature Switzerland AG

Místo

Atény

DOI

10.1007/978-3-031-70546-5_13

UT WoS

001336396200013

EID Scopus

2-s2.0-85204632106

BibTeX

@inproceedings{BUT193312,
  author="Martin {Kišš} and Michal {Hradiš}",
  title="Self-supervised Pre-training of Text Recognizers",
  booktitle="Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024",
  year="2024",
  series="Lecture Notes in Computer Science",
  volume="14807",
  pages="218--235",
  publisher="Springer Nature Switzerland AG",
  address="Atény",
  doi="10.1007/978-3-031-70546-5\{_}13",
  isbn="978-3-031-70545-8",
  url="https://link.springer.com/chapter/10.1007/978-3-031-70546-5_13"
}