Detail publikace

Two-Phase Categorization of Web Documents

BARTÍK, V.; BURGET, R. Two-Phase Categorization of Web Documents. Proceedings of the International Conference on Knowledge Discovery and Information Retrieval. Valencia: Institute for Systems and Technologies of Information, Control and Communication, 2010. p. 458-462. ISBN: 978-989-8425-28-7.
Název česky
Dvoufázová kategorizace webových dokumentů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova

Web page categorization, visual block classification, term weighting, TF-IDF, page segmentation

Abstrakt

Počet dokumentů na WWW neustále vzrůstá, a je proto potřeba je efektivně zpracovávat a získávat z nich důležité informace. V této oblasti je důležitou úlohou kategorizace webových stránek. Popisovaná metoda používá pro kategorizaci textové i vizuální vlastnosti stránky. Kategorizace probíhá e dvou fázích. V první fázi jsou vizuální oblasti stránky získané pomocí segmentace klasifikovány na základě vizuálních vlastností. V druhé fázi jsou klasifikovány celé stránky, na základě informací z první fáze a textu v jednotlivých oblastech stránky. Na závěr článku jsou prezentovány výsledky experimentů se stránkami ze zpravodajských serverů.

Rok
2010
Strany
458–462
Sborník
Proceedings of the International Conference on Knowledge Discovery and Information Retrieval
Konference
International Conference on Knowledge Discovery and Information Retrieval, Valencia, ES
ISBN
978-989-8425-28-7
Vydavatel
Institute for Systems and Technologies of Information, Control and Communication
Místo
Valencia
BibTeX
@inproceedings{BUT34415,
  author="Vladimír {Bartík} and Radek {Burget}",
  title="Two-Phase Categorization of Web Documents",
  booktitle="Proceedings of the International Conference on Knowledge Discovery and Information Retrieval",
  year="2010",
  pages="458--462",
  publisher="Institute for Systems and Technologies of Information, Control and Communication",
  address="Valencia",
  isbn="978-989-8425-28-7"
}
Nahoru