Detail publikace

Information Extraction from Web Sources based on Multi-aspect Content Analysis

MILIČKA Martin a BURGET Radek. Information Extraction from Web Sources based on Multi-aspect Content Analysis. In: Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015. Communications in Computer and Information Science, roč. 2015. Portorož: Springer International Publishing, 2015, s. 81-92. ISBN 978-3-319-25517-0. ISSN 1865-0929.
Název česky
Extrakce informací z webových zdrojů založená na více aspektové analýze obsahu
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt

Extrakce informací z webových stránek je často považována za obtížný úkol kvůli nepřesné struktuře a nedostatečným sémantickým informací ve zdrojovém HTML kódu. Webové stránky jsou primárně určeny ke zpracování lidmi, jejich autoři se tedy příliš nezabývají strukturou ani správností zápisu HTML kódu.
Stránky CEUR Workshop Proceedings dobře ilustrují tuto problematiku. Můžeme tam najít spoustu různě nevalidních stránek až po ty, které odpovídají normám. V tomto příspěvku, který je součástí ESWC 2015 Semantic Publishing Challenge, je prezentovana extrakce informace založena na analýze rendrovaných stránek spíše než na zdrojovém kódu. Výsledné popisy dokumetů jsou prezentovány v RDF modelu, který umožňuje kombinovat výsledky různých analýz na stránkách jako je vizuální nebo textová klasifikace. Takový přístup umožňuje definovat pravidla extrakce konkrétních dat bez ohledu na zdrojový kód.

Rok
2015
Strany
81-92
Časopis
Communications in Computer and Information Science, roč. 2015, č. 548, ISSN 1865-0929
Sborník
Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015
Řada
Communications in Computer and Information Science
Konference
12th Extended Semantic Web Conference 2015, Portoroz, SI
ISBN
978-3-319-25517-0
Vydavatel
Springer International Publishing
Místo
Portorož, SI
DOI
UT WoS
000369663000007
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB10840,
   author = "Martin Mili\v{c}ka and Radek Burget",
   title = "Information Extraction from Web Sources based on Multi-aspect Content Analysis",
   pages = "81--92",
   booktitle = "Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015",
   series = "Communications in Computer and Information Science",
   journal = "Communications in Computer and Information Science",
   volume = 2015,
   number = 548,
   year = 2015,
   location = "Portoro\v{z}, SI",
   publisher = "Springer International Publishing",
   ISBN = "978-3-319-25517-0",
   ISSN = "1865-0929",
   doi = "10.1007/978-3-319-25518-7\_7",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/10840"
}
Nahoru