Detail publikace
Model-Based Integration of Unstructured Web Data Sources Using Graph Representation of Document Contents
Nestrukturované nebo částečně strukturované dokumenty na webu se často používají pro publikování strukturovaných dat specifických pro určitou doménu, která nejsou dostupná z jiných zdrojů. Integrace takových dokumentů jako zdrojů dat do standardního informačního systému představuje stále náročný problém kvůli velmi volné struktuře vstupních dokumentů a obvykle chybějící sémantické anotaci publikovaných dat. V tomto článku navrhujeme přístup k integraci dat, který využívá doménový model cílového informačního systému. Nejprve navrhujeme grafový model vstupního dokumentu, který umožňuje interpretovat obsažená data různými alternativními způsoby. Dále navrhujeme způsob zarovnání modelu dokumentu s modelem cílové domény na základě vyhodnocení všech možných mapování mezi těmito dvěma modely. A konečně demonstrujeme použitelnost navrhovaného přístupu na vzorové doméně jízdních řádů veřejné dopravy a předkládáme předběžné výsledky dosažené pro reálné dokumenty dostupné na webu.
@INPROCEEDINGS{FITPUB12003, author = "Radek Burget", title = "Model-Based Integration of Unstructured Web Data Sources Using Graph Representation of Document Contents", pages = "326--333", booktitle = "15th International Conference on Web Information Systems and Technologies", year = 2019, location = "Vienna, AT", publisher = "SciTePress - Science and Technology Publications", ISBN = "978-989-758-386-5", doi = "10.5220/0008350103260333", language = "english", url = "https://www.fit.vut.cz/research/publication/12003" }