Detail projektu
semANT - Sémantický průzkumník textového kulturního dědictví
Období řešení: 1. 3. 2023 – 31. 12. 2027
Typ projektu: grant
Kód: DH23P03OVV060
Agentura: Ministerstvo kultury ČR

digitální knihovna, identifikace tématu, vyhledávání sémantických dokumentů,
průzkum obsahu, vizualizace obsahu
Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve
fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu
a možnosti přirozené navigace mezi tématicky podobnými dokumenty. Uživatelům
poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost
vyhledávat podle částí textu (například odstavců) s možností specifikovat
současně téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky
identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na
základě příkladů z textů.
Beneš Karel, Ing., Ph.D. (UPGM)
Dočekal Martin, Ing. (UPGM)
Fajčík Martin, Ing., Ph.D. (UPGM)
Kavalová Radka, Mgr. (VCIT)
Kišš Martin, Ing. (UPGM)
Kohút Jan, Ing. (UPGM)
Lampa Petr, Ing. (DFIT-OIP)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
2024
- KIŠŠ, M.; HRADIŠ, M. Self-supervised Pre-training of Text Recognizers. In Barney Smith, E.H., Liwicki, M., Peng, L. (eds) Document Analysis and Recognition - ICDAR 2024. Lecture Notes in Computer Science. Atény: Springer Nature Switzerland AG, 2024.
p. 218-235. ISBN: 978-3-031-70545-8. Detail
2023
- KOHÚT, J.; HRADIŠ, M. Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition. In Document Analysis and Recognition - ICDAR 2023. Lecture Notes in Computer Science. Lecture Notes in Computer Science. San José: Springer Nature Switzerland AG, 2023.
p. 269-286. ISBN: 978-3-031-41684-2. ISSN: 0302-9743. Detail
2024
- Textjuicer - Software pro generování zkrácených popisů textů, software, 2024
Autoři: DOČEKAL, M.; FAJČÍK, M.; HRADIŠ, M.
2023
- Systém pro analýzu struktury dokumentů, software, 2023
Autoři: KOSTELNÍK, M.; BENEŠ, K.; HRADIŠ, M.; VAŠKO, M.