Detail publikace
Information Extraction from Web Sources based on Multi-aspect Content Analysis
Extrakce informací z webových stránek je často považována za obtížný úkol kvůli nepřesné struktuře a nedostatečným sémantickým informací ve zdrojovém HTML kódu. Webové stránky jsou primárně určeny ke zpracování lidmi, jejich autoři se tedy příliš nezabývají strukturou ani správností zápisu HTML kódu.
Stránky CEUR Workshop Proceedings dobře ilustrují tuto problematiku. Můžeme tam najít spoustu různě nevalidních stránek až po ty, které odpovídají normám. V tomto příspěvku, který je součástí ESWC 2015 Semantic Publishing Challenge, je prezentovana extrakce informace založena na analýze rendrovaných stránek spíše než na zdrojovém kódu. Výsledné popisy dokumetů jsou prezentovány v RDF modelu, který umožňuje kombinovat výsledky různých analýz na stránkách jako je vizuální nebo textová klasifikace. Takový přístup umožňuje definovat pravidla extrakce konkrétních dat bez ohledu na zdrojový kód.
@INPROCEEDINGS{FITPUB10840, author = "Martin Mili\v{c}ka and Radek Burget", title = "Information Extraction from Web Sources based on Multi-aspect Content Analysis", pages = "81--92", booktitle = "Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015", series = "Communications in Computer and Information Science", journal = "Communications in Computer and Information Science", volume = 2015, number = 548, year = 2015, location = "Portoro\v{z}, SI", publisher = "Springer International Publishing", ISBN = "978-3-319-25517-0", ISSN = "1865-0929", doi = "10.1007/978-3-319-25518-7\_7", language = "english", url = "https://www.fit.vut.cz/research/publication/10840" }