Detail publikace
Self-supervised Pre-training of Text Recognizers
Self-supervised učení, rozpoznávání textu, předtrénování, OCR, HTR
V tomto článku se zabýváme metodami self-supervised předtrénování pro rozpoznávání textu dokumentů. V současné době lze pro mnoho výzkumných úloh, včetně rozpoznávání textu, shromažďovat rozsáhlé neoznačené datové sady, ale jejich anotace je nákladná. Proto se zkoumají metody využívající neoznačená data. Studujeme self-supervised metody předtrénování založené na predikci maskovaných štítků pomocí tří různých přístupů - kvantizace funkcí, VQ-VAE a postkvantizované AE. Zkoumáme také přístupy společného zakódování s cíli VICReg a NT-Xent, pro které navrhujeme techniku posunu obrazu, abychom zabránili zhroucení modelu, kdy se spoléhá pouze na poziční kódování a zcela ignoruje vstupní obraz. Naše experimenty provádíme na historických ručně psaných (Bentham) a historických tištěných datových sadách především proto, abychom prozkoumali výhody technik self-supervised předtrénování s různým množstvím anotovaných dat cílové domény. Jako silné výchozí hodnoty používáme učení přenosem. Vyhodnocení ukazuje, že self-supervised předtrénování na datech z cílové domény je velmi efektivní, ale má problém překonat transferové učení z úzce souvisejících domén. Tento článek je jedním z prvních výzkumů zkoumajících self-supervised předtrénování v rozpoznávání textu dokumentů a věříme, že se stane základním kamenem pro budoucí výzkum v této oblasti. Naši implementaci zkoumaných metod jsme zpřístupnili veřejnosti na adrese https://github.com/DCGM/pero-pretraining.
@INPROCEEDINGS{FITPUB13208, author = "Martin Ki\v{s}\v{s} and Michal Hradi\v{s}", title = "Self-supervised Pre-training of Text Recognizers", pages = "218--235", booktitle = "Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024", series = "Lecture Notes in Computer Science", volume = 14807, year = 2024, location = "At\'{e}ny, GR", publisher = "Springer Nature Switzerland AG", ISBN = "978-3-031-70545-8", doi = "10.1007/978-3-031-70546-5\_13", language = "english", url = "https://www.fit.vut.cz/research/publication/13208" }