Detail produktu
Information Extraction Tools from CEUR Workshop Pages
Vznik: 2015
Projekt implementuje aplikace a nástroje pro automatickou extrakci informací ze stránek workshopů CEUR-WS.org. Tyto nástroje zpracovávají vstupní HTML stránky a produkují strukturovaná propojená data ve formátu RDF. Implementace je založena na existujícím obecném rámci pro analýzu dokumentů FITLayout a mnoha dalších rozšířeních specifických pro danou úlohu. Výsledná data mohou být využita pro hodnocení kvality jednotlivých workshopů CEUR. Nástroje byly vytvořeny jako řešení Úlohy 1 soutěže Semantic Publishing Challenge 2015 v rámci konference ESWC 2015. V této soutěži získaly první cenu pro nástroj produkující nejlepší výsledky a cenu za nejvíce inovativní přístup. Představují případovou studii demonstrující praktickou použitelnost vyvinutých metod pro analýzu dokumentů.
Volně šiřitelný software poskytovaný pod licencí GNU GPL.
Výzkum pokročilých metod ICT a jejich aplikace (FIT-S-14-2299)