Dissertation Topic

Inteligentní získávání strukturovaných dat z elektronických dokumentů

Academic Year: 2025/2026

Supervisor: Burget Radek, doc. Ing., Ph.D.

Department: Department of Information Systems

Programs:
Information Technology (DIT) - full-time study
Information Technology (DIT) - combined study

This dissertation topic is available for Czech studies only.

Elektronické dokumenty v různých formátech představují potenciálně velmi bohatý a užitečný zdroj strukturovaných dat z mnoha oborů lidské činnosti. Jedná se jak o webové stránky publikující různá, veřejně dostupná data, tak i například dokumenty PDF včetně článků publikujících výsledky vědeckých experimentů, měření a podobně. Identifikace těchto informací v dokumentech a jejich uložení ve strukturované, lépe zpracovatelné podobě, naráží zejména na velmi volnou strukturu těchto dokumentů a absenci strojově zpracovatelných anotací, které by umožnily data správně interpretovat.

V současnosti se tento problém typicky řeší pomocí jednoúčelových programů vytvořených ad-hoc pro konkrétní případy, což vede ke špatné škálovatelnosti a nespolehlivosti výsledného řešení. Proto se poslední výzkum zaměřuje na využití metod strojového učení umožňujících adaptivní rozpoznání požadovaných informací v různorodých typech dokumentů.

Cílem tématu je proto analýza a vývoj modelů obsahu vhodných jako vstup pro strojové učení a současně i samotných metod strojového učení vhodných pro rozpoznání strukturovaných dat v dokumentech. Uplatní se zde například velké jazykové modely, grafové neuronové sítě, ale i mnohé další přístupy.

Back to top