Detail publikace
Extracting Visually Presented Element Relationships from Web Documents
logical document structure; page segmentation; document analysis; web documents
Mnoho dokumentů na WWW prezentuje strukturovanou informaci, která se skládá s většího množství údajů,mezi kterými existují určité vztahy. I když často není obtížné identifikovat hodnoty jednotlivýchúdajů v textu dokumentu, vztahy mezi nimi často nejsou explicitně popsány v obsahu dokumentu. Jsouvyjádřeny pomocí vizuální prezentace obsahu interpretované čtenářem. V tomto článku popisujeme obecnýformální model logických vztahů v dokumentu založený na interpretaci vzorů vizuální prezentace dat v dokumentu.Tento model popisuje vizuálně vyjádřené vztahy mezi jednotlivými částmi obsahu nezávisle na formátudokumentu a konkrétním způsobu prezentace. Proto může být použit v mnohaaplikacích vyhledávání a extrakce informací. Formálně definujeme navržený model, představujeme metodu extrakcevztahů mezi částmi obsahu na základě analýzy vizuální prezentace a diskutujeme očekávané aplikace.Dále představujeme nový dataset skládající se z programů konferencí a dalších vědeckých událostí. Tentodataset je použit pro experimentální vyhodnocení výsledků implementované metody.
@article{BUT105971,
author="Radek {Burget} and Pavel {Smrž}",
title="Extracting Visually Presented Element Relationships from Web Documents",
journal="International Journal of Cognitive Informatics and Natural Intelligence",
year="2013",
volume="2013",
number="2",
pages="13--29",
doi="10.4018/ijcini.2013040102",
issn="1557-3958",
url="https://www.fit.vut.cz/research/publication/10468/"
}