Detail publikace

Layout Based Information Extraction from HTML Documents

BURGET, R. Layout Based Information Extraction from HTML Documents. 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007. p. 624-629. ISBN: 0-7695-2822-8.

Název česky

Extrakce informace z HTML dokumetnů založená na rozložení stránky

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)

Klíčová slova

page segmentation, layout analysis, information extraction

Abstrakt

Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci rozložení stránky a následný extrakční proces je založen na analýze vzájemných pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je robustnější, než tradiční metody založené na DOM a otevírá nové možnosti specifikace extrakční úlohy.

Rok

2007

Strany

624–629

Sborník

9th International Conference on Document Analysis and Recognition ICDAR 2007

Konference

9th International Conference on Document Analysis and Recognition, Curitiba, BR

ISBN

0-7695-2822-8

Vydavatel

IEEE Computer Society

Místo

Curitiba

BibTeX

@inproceedings{BUT28821,
  author="Radek {Burget}",
  title="Layout Based Information Extraction from HTML Documents",
  booktitle="9th International Conference on Document Analysis and Recognition ICDAR 2007",
  year="2007",
  pages="624--629",
  publisher="IEEE Computer Society",
  address="Curitiba",
  isbn="0-7695-2822-8"
}