Detail publikace

Self-supervised Pre-training of Text Recognizers

KIŠŠ Martin a HRADIŠ Michal. Self-supervised Pre-training of Text Recognizers. In: Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024. Lecture Notes in Computer Science, roč. 14807. Atény: Springer Nature Switzerland AG, 2024, s. 218-235. ISBN 978-3-031-70545-8. Dostupné z: https://link.springer.com/chapter/10.1007/978-3-031-70546-5_13
Název česky
Self-supervised předtrénování rozpoznávačů textu
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kišš Martin, Ing. (UPGM FIT VUT)
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

Self-supervised učení, rozpoznávání textu, předtrénování, OCR, HTR

Abstrakt

V tomto článku se zabýváme metodami self-supervised předtrénování pro rozpoznávání textu dokumentů. V současné době lze pro mnoho výzkumných úloh, včetně rozpoznávání textu, shromažďovat rozsáhlé neoznačené datové sady, ale jejich anotace je nákladná. Proto se zkoumají metody využívající neoznačená data. Studujeme self-supervised metody předtrénování založené na predikci maskovaných štítků pomocí tří různých přístupů - kvantizace funkcí, VQ-VAE a postkvantizované AE. Zkoumáme také přístupy společného zakódování s cíli VICReg a NT-Xent, pro které navrhujeme techniku posunu obrazu, abychom zabránili zhroucení modelu, kdy se spoléhá pouze na poziční kódování a zcela ignoruje vstupní obraz. Naše experimenty provádíme na historických ručně psaných (Bentham) a historických tištěných datových sadách především proto, abychom prozkoumali výhody technik self-supervised předtrénování s různým množstvím anotovaných dat cílové domény. Jako silné výchozí hodnoty používáme učení přenosem. Vyhodnocení ukazuje, že self-supervised předtrénování na datech z cílové domény je velmi efektivní, ale má problém překonat transferové učení z úzce souvisejících domén. Tento článek je jedním z prvních výzkumů zkoumajících self-supervised předtrénování v rozpoznávání textu dokumentů a věříme, že se stane základním kamenem pro budoucí výzkum v této oblasti. Naši implementaci zkoumaných metod jsme zpřístupnili veřejnosti na adrese https://github.com/DCGM/pero-pretraining.

Rok
2024
Strany
218-235
Sborník
Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024
Řada
Lecture Notes in Computer Science
Svazek
14807
Konference
International Conference on Document Analysis and Recognition, Atény, Řecko, GR
ISBN
978-3-031-70545-8
Vydavatel
Springer Nature Switzerland AG
Místo
Atény, GR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13208,
   author = "Martin Ki\v{s}\v{s} and Michal Hradi\v{s}",
   title = "Self-supervised Pre-training of Text Recognizers",
   pages = "218--235",
   booktitle = "Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024",
   series = "Lecture Notes in Computer Science",
   volume = 14807,
   year = 2024,
   location = "At\'{e}ny, GR",
   publisher = "Springer Nature Switzerland AG",
   ISBN = "978-3-031-70545-8",
   doi = "10.1007/978-3-031-70546-5\_13",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13208"
}
Nahoru