Detail publikace
Two-Phase Categorization of Web Documents
Web page categorization, visual block classification, term weighting, TF-IDF, page segmentation
Počet dokumentů na WWW neustále vzrůstá, a je proto potřeba je efektivně zpracovávat a získávat z nich důležité informace. V této oblasti je důležitou úlohou kategorizace webových stránek. Popisovaná metoda používá pro kategorizaci textové i vizuální vlastnosti stránky. Kategorizace probíhá e dvou fázích. V první fázi jsou vizuální oblasti stránky získané pomocí segmentace klasifikovány na základě vizuálních vlastností. V druhé fázi jsou klasifikovány celé stránky, na základě informací z první fáze a textu v jednotlivých oblastech stránky. Na závěr článku jsou prezentovány výsledky experimentů se stránkami ze zpravodajských serverů.
@inproceedings{BUT34415,
author="Vladimír {Bartík} and Radek {Burget}",
title="Two-Phase Categorization of Web Documents",
booktitle="Proceedings of the International Conference on Knowledge Discovery and Information Retrieval",
year="2010",
pages="458--462",
publisher="Institute for Systems and Technologies of Information, Control and Communication",
address="Valencia",
isbn="978-989-8425-28-7"
}