Detail publikace
Self-supervised Pre-training of Text Recognizers
Self-supervised učení, rozpoznávání textu, předtrénování, OCR, HTR
V tomto článku se zabýváme metodami self-supervised předtrénování pro
rozpoznávání textu dokumentů. V současné době lze pro mnoho výzkumných úloh,
včetně rozpoznávání textu, shromažďovat rozsáhlé neoznačené datové sady, ale
jejich anotace je nákladná. Proto se zkoumají metody využívající neoznačená data.
Studujeme self-supervised metody předtrénování založené na predikci maskovaných
štítků pomocí tří různých přístupů - kvantizace funkcí, VQ-VAE a postkvantizované
AE. Zkoumáme také přístupy společného zakódování s cíli VICReg a NT-Xent, pro
které navrhujeme techniku posunu obrazu, abychom zabránili zhroucení modelu, kdy
se spoléhá pouze na poziční kódování a zcela ignoruje vstupní obraz. Naše
experimenty provádíme na historických ručně psaných (Bentham) a historických
tištěných datových sadách především proto, abychom prozkoumali výhody technik
self-supervised předtrénování s různým množstvím anotovaných dat cílové domény.
Jako silné výchozí hodnoty používáme učení přenosem. Vyhodnocení ukazuje, že
self-supervised předtrénování na datech z cílové domény je velmi efektivní, ale
má problém překonat transferové učení z úzce souvisejících domén. Tento článek je
jedním z prvních výzkumů zkoumajících self-supervised předtrénování
v rozpoznávání textu dokumentů a věříme, že se stane základním kamenem pro
budoucí výzkum v této oblasti. Naši implementaci zkoumaných metod jsme
zpřístupnili veřejnosti na adrese https://github.com/DCGM/pero-pretraining.
@inproceedings{BUT193312,
author="Martin {Kišš} and Michal {Hradiš}",
title="Self-supervised Pre-training of Text Recognizers",
booktitle="Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024",
year="2024",
series="Lecture Notes in Computer Science",
volume="14807",
pages="218--235",
publisher="Springer Nature Switzerland AG",
address="Atény",
doi="10.1007/978-3-031-70546-5\{_}13",
isbn="978-3-031-70545-8",
url="https://link.springer.com/chapter/10.1007/978-3-031-70546-5_13"
}