Detail projektu
Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti
Období řešení: 1. 3. 2018 – 31. 12. 2022
Typ projektu: grant
Kód: DG18P02OVV055
Agentura: Ministerstvo kultury ČR

pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení
využitelnosti
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu
digitalizovaných historických dokumentů, které budou využívat aktuální vývoj
v oblasti počítačového vidění, strojového učení a jazykového modelování a které
v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování
digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech,
kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro
dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro
rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné
automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou
kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů
s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis
ručně psaných dokumentů a automatickou extrakci semantické informace
z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje
a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci
poloprovozu ve spolupráci s MZK.
Bařina David, Ing., Ph.D. (UPGM)
Beneš Karel, Ing., Ph.D. (UPGM)
Hájková Gabriela, Mgr. (DFIT)
Hradiš Michal, Ing., Ph.D. (UPGM)
Hříbek David, Ing.
Juránek Roman, Ing., Ph.D. (UPGM)
Kodym Oldřich, Ing., Ph.D.
Kopeczinski Daniela, Mgr. (Knihovna)
Zemčík Pavel, prof. Dr. Ing., dr. h. c. (UPGM)
2022
- DVOŘÁKOVÁ, M.; HRADIŠ, M.; ŽABIČKA, P.; KOHÚT, J.; KIŠŠ, M.; BENEŠ, K. Využití PERO OCR při přepisu rukopisů. Archivní časopis, 2022, roč. 72, č. 1,
s. 14-27. ISSN: 0004-0398. Detail - KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022.
p. 158-170. ISBN: 978-3-031-06554-5. Detail
2021
- KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021.
p. 463-477. ISBN: 978-3-030-86336-4. Detail - KODYM, O.; HRADIŠ, M. Page Layout Analysis System for Unconstrained Historic Documents. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021.
p. 492-506. ISBN: 978-3-030-86330-2. Detail - KODYM, O.; HRADIŠ, M. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition, 2021, vol. 2021, no. 1,
p. 1-14. ISSN: 1433-2825. Detail - KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021.
p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743. Detail
2020
- KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020.
p. 1352-1357. ISBN: 978-1-7281-3015-6. Detail
2022
- Software pro extrakci informace z polostrukturovaných dokumentů, software, 2022
Autoři: HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KOSTELNÍK, M.
2021
- Interaktivní polo-automatické rozpoznávání ručně psaného písma, software, 2021
Autoři: HRADIŠ, M.; KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; KODYM, O.; BUCHAL, P.; HŘÍBEK, D.
2020
- Software pro adaptabilní rozpoznávání textu starých tisků, software, 2020
Autoři: HRADIŠ, M.; KIŠŠ, M.; KODYM, O.; KOHÚT, J.; BENEŠ, K.; BUCHAL, P. - Zařízení pro digitalizaci specificky poškozených dokumentů, funkční vzorek, 2020
Autoři: HRADIŠ, M.
2019
- Softwarový nástroj pro automatické měření obrazové kvality digitalizovaných textových dokumentů, software, 2019
Autoři: BAKO, M.; BUCHAL, P.; HRADIŠ, M. - Softwarový nástroj pro automatickou detekci a korekci vad a zkreslení digitalizátů, software, 2019
Autoři: HRADIŠ, M.; KODYM, O.