Detail publikace
Two-Phase Categorization of Web Documents
BARTÍK Vladimír a BURGET Radek. Two-Phase Categorization of Web Documents. In: Proceedings of the International Conference on Knowledge Discovery and Information Retrieval. Valencia: Institute for Systems and Technologies of Information, Control and Communication, 2010, s. 458-462. ISBN 978-989-8425-28-7.
Název česky
Dvoufázová kategorizace webových dokumentů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Abstrakt
Počet dokumentů na WWW neustále vzrůstá, a je proto potřeba je efektivně zpracovávat a získávat z nich důležité informace. V této oblasti je důležitou úlohou kategorizace webových stránek. Popisovaná metoda používá pro kategorizaci textové i vizuální vlastnosti stránky. Kategorizace probíhá e dvou fázích. V první fázi jsou vizuální oblasti stránky získané pomocí segmentace klasifikovány na základě vizuálních vlastností. V druhé fázi jsou klasifikovány celé stránky, na základě informací z první fáze a textu v jednotlivých oblastech stránky. Na závěr článku jsou prezentovány výsledky experimentů se stránkami ze zpravodajských serverů.
Rok
2010
Strany
458-462
Sborník
Proceedings of the International Conference on Knowledge Discovery and Information Retrieval
Konference
International Conference on Knowledge Discovery and Information Retrieval, Valencia, ES
ISBN
978-989-8425-28-7
Vydavatel
Institute for Systems and Technologies of Information, Control and Communication
Místo
Valencia, ES
BibTeX
@INPROCEEDINGS{FITPUB9381, author = "Vladim\'{i}r Bart\'{i}k and Radek Burget", title = "Two-Phase Categorization of Web Documents", pages = "458--462", booktitle = "Proceedings of the International Conference on Knowledge Discovery and Information Retrieval", year = 2010, location = "Valencia, ES", publisher = "Institute for Systems and Technologies of Information, Control and Communication", ISBN = "978-989-8425-28-7", language = "english", url = "https://www.fit.vut.cz/research/publication/9381" }