Detail výsledku

Generator of Synthetic Datasets for Hierarchical Sequential Pattern Mining Evaluation

ŠEBEK, M.; ZENDULKA, J. Generator of Synthetic Datasets for Hierarchical Sequential Pattern Mining Evaluation. Proceedings of the Twelfth International Conference on Informatics 2013. Košice: The University of Technology Košice, 2013. p. 289-292. ISBN: 978-80-8143-127-2.

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Šebek Michal, Ing., Ph.D., FIT (FIT), UIFS (FIT)
Zendulka Jaroslav, doc. Ing., CSc., UIFS (FIT)

Abstrakt

Evaluation is an important part of algorithm design. Algorithms are typically evaluated on real-world and synthetic datasets. Real-world datasets are appropriate for evaluation of algorithm properties in practice but it is difficult to change the dataset to have some particular statistics, e.g. number of input items. In contrast, generated synthetic dataset simply allows changing any of statistic property of the dataset with keeping all other statistic properties. In the paper, we present a procedure for generation of sequence databases with taxonomies for an evaluation of hierarchical sequential pattern mining algorithms.

Klíčová slova

Sequence pattern mining, synthetic dataset generators, taxonomy

Anotace

Evaluace je důležitou součástí návrhu algoritmů. Algoritmy jsou obvykle evaluovány na reálných a syntetických datových sadách. Reálné datové sady jsou vhodné pro hodnocení vlastností algoritmů v praxi, ale je obtížné změnit datovou sadu tak, aby měla nějaké konkrétní statistické vlastnosti, např. počet vstupních položek. Naproti tomu, vygenerované syntetické datové sady umožňují jednoduše provádět jakékoliv změny hodnoty statistické vlastnosti datové sady při zachování všech ostatních vlastností. V příspěvku prezentujeme postup pro generování databází sekvencí s taxonomiemi pro evaluaci algoritmů pro dolování hierarchických sekvenčních vzorů.

Rok

2013

Strany

289–292

Sborník

Proceedings of the Twelfth International Conference on Informatics 2013

Konference

Informatics 2013 - 12th International Scientific Conference on Informatics

ISBN

978-80-8143-127-2

Vydavatel

The University of Technology Košice

Místo

Košice

BibTeX

@inproceedings{BUT103555,
  author="Michal {Šebek} and Jaroslav {Zendulka}",
  title="Generator of Synthetic Datasets for Hierarchical Sequential Pattern Mining Evaluation",
  booktitle="Proceedings of the Twelfth International Conference on Informatics 2013",
  year="2013",
  pages="289--292",
  publisher="The University of Technology Košice",
  address="Košice",
  isbn="978-80-8143-127-2",
  url="https://www.fit.vut.cz/research/publication/10435/"
}

Soubory

pdf informatics-generator_draft.pdf 227 kB

Projekty

Centrum excelence IT4Innovations, MŠMT, Operační program Výzkum a vývoj pro inovace, ED1.1.00/02.0070, zahájení: 2011-01-01, ukončení: 2015-12-31, ukončen
Pokročilé rozpoznávání a prezentace multimediálních dat, VUT, Vnitřní projekty VUT, FIT-S-11-2, zahájení: 2011-01-01, ukončení: 2013-12-31, ukončen
Systém pro zvýšení bezpečnosti v prostředí Internetu analýzou šíření škodlivého kódu, TAČR, Program aplikovaného výzkumu a experimentálního vývoje ALFA, TA01010858, zahájení: 2011-01-01, ukončení: 2013-12-31, ukončen
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení

Pracoviště

Ústav informačních systémů (UIFS)