Téma disertační práce
Inteligentní získávání strukturovaných dat z elektronických dokumentů
Ak. rok 2025/2026
Školitel: Burget Radek, doc. Ing., Ph.D.
Ústav: Ústav informačních systémů
Programy:
Informační technologie (DIT) - prezenční studium
Informační technologie (DIT) - kombinované studium
Elektronické dokumenty v různých formátech představují potenciálně velmi bohatý a užitečný zdroj strukturovaných dat z mnoha oborů lidské činnosti. Jedná se jak o webové stránky publikující různá, veřejně dostupná data, tak i například dokumenty PDF včetně článků publikujících výsledky vědeckých experimentů, měření a podobně. Identifikace těchto informací v dokumentech a jejich uložení ve strukturované, lépe zpracovatelné podobě, naráží zejména na velmi volnou strukturu těchto dokumentů a absenci strojově zpracovatelných anotací, které by umožnily data správně interpretovat.
V současnosti se tento problém typicky řeší pomocí jednoúčelových programů vytvořených ad-hoc pro konkrétní případy, což vede ke špatné škálovatelnosti a nespolehlivosti výsledného řešení. Proto se poslední výzkum zaměřuje na využití metod strojového učení umožňujících adaptivní rozpoznání požadovaných informací v různorodých typech dokumentů.
Cílem tématu je proto analýza a vývoj modelů obsahu vhodných jako vstup pro strojové učení a současně i samotných metod strojového učení vhodných pro rozpoznání strukturovaných dat v dokumentech. Uplatní se zde například velké jazykové modely, grafové neuronové sítě, ale i mnohé další přístupy.