Detail publikace

Information Extraction from Web Sources based on Multi-aspect Content Analysis

MILIČKA Martin a BURGET Radek. Information Extraction from Web Sources based on Multi-aspect Content Analysis. In: Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015. Communications in Computer and Information Science, roč. 2015. Portorož: Springer International Publishing, 2015, s. 81-92. ISBN 978-3-319-25517-0. ISSN 1865-0929.

Název česky

Extrakce informací z webových zdrojů založená na více aspektové analýze obsahu

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Milička Martin, Ing. (UIFS FIT VUT)
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT)

Abstrakt

Extrakce informací z webových stránek je často považována za obtížný úkol kvůli nepřesné struktuře a nedostatečným sémantickým informací ve zdrojovém HTML kódu. Webové stránky jsou primárně určeny ke zpracování lidmi, jejich autoři se tedy příliš nezabývají strukturou ani správností zápisu HTML kódu.
Stránky CEUR Workshop Proceedings dobře ilustrují tuto problematiku. Můžeme tam najít spoustu různě nevalidních stránek až po ty, které odpovídají normám. V tomto příspěvku, který je součástí ESWC 2015 Semantic Publishing Challenge, je prezentovana extrakce informace založena na analýze rendrovaných stránek spíše než na zdrojovém kódu. Výsledné popisy dokumetů jsou prezentovány v RDF modelu, který umožňuje kombinovat výsledky různých analýz na stránkách jako je vizuální nebo textová klasifikace. Takový přístup umožňuje definovat pravidla extrakce konkrétních dat bez ohledu na zdrojový kód.

Rok

2015

Strany

81-92

Časopis

Communications in Computer and Information Science, roč. 2015, č. 548, ISSN 1865-0929

Sborník

Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015

Řada

Communications in Computer and Information Science

Konference

12th Extended Semantic Web Conference 2015, Portoroz, SI

ISBN

978-3-319-25517-0

Vydavatel

Springer International Publishing

Místo

Portorož, SI

DOI

10.1007/978-3-319-25518-7_7

UT WoS

000369663000007

EID Scopus

2-s2.0-84951282940

BibTeX

@INPROCEEDINGS{FITPUB10840,
   author = "Martin Mili\v{c}ka and Radek Burget",
   title = "Information Extraction from Web Sources based on Multi-aspect Content Analysis",
   pages = "81--92",
   booktitle = "Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015",
   series = "Communications in Computer and Information Science",
   journal = "Communications in Computer and Information Science",
   volume = 2015,
   number = 548,
   year = 2015,
   location = "Portoro\v{z}, SI",
   publisher = "Springer International Publishing",
   ISBN = "978-3-319-25517-0",
   ISSN = "1865-0929",
   doi = "10.1007/978-3-319-25518-7\_7",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/10840"
}