Detail publikace

Layout Based Information Extraction from HTML Documents

BURGET, R. Layout Based Information Extraction from HTML Documents. 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007. p. 624-629. ISBN: 0-7695-2822-8.
Název česky
Extrakce informace z HTML dokumetnů založená na rozložení stránky
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova

page segmentation, layout analysis, information extraction

Abstrakt

Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci rozložení stránky a následný extrakční proces je založen na analýze vzájemných pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je robustnější, než tradiční metody založené na DOM a otevírá nové možnosti specifikace extrakční úlohy.

Rok
2007
Strany
624–629
Sborník
9th International Conference on Document Analysis and Recognition ICDAR 2007
Konference
9th International Conference on Document Analysis and Recognition, Curitiba, BR
ISBN
0-7695-2822-8
Vydavatel
IEEE Computer Society
Místo
Curitiba
BibTeX
@inproceedings{BUT28821,
  author="Radek {Burget}",
  title="Layout Based Information Extraction from HTML Documents",
  booktitle="9th International Conference on Document Analysis and Recognition ICDAR 2007",
  year="2007",
  pages="624--629",
  publisher="IEEE Computer Society",
  address="Curitiba",
  isbn="0-7695-2822-8"
}
Nahoru