Detail publikace
Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm
Stríž Rostislav, Ing. (UIFS FIT VUT)
Kupčík Jan, Ing. (UIFS FIT VUT)
Zendulka Jaroslav, doc. Ing., CSc. (UIFS FIT VUT)
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT)
Nevyvážená data, klasifikace, genetický algoritmus, logistická regrese
Klasifikace nevyvážených dat je často diskutovaný problém, který nelze řešit běžnými klasifikačními technikami. V článku jsme se zabývali problémem binární klasifikace z rozsáhlých dat s omezením na minoritní třídu. Přestavujeme novou meta-učící metodu, která vytváří kandidátní modely pomocí cost-sensitive učení logistické regrese a tyto modely využívá jako počáteční chromozomy pro optimalizaci genetickým algoritmem. Tato metoda byla úspěšně testována na rozsáhlých datech z reálného prostředí z výzkumu v oblasti počítačové bezpečnosti. Experimenty dokazují, že kombinovaná metoda vede vždy k lepším výsledkům než použití metod logistické regrese a genetického algoritmu samostatně. Navíc, tato metoda produkuje snadno interpretovatelný klasifikační model, který poskytuje velmi rychlou klasifikaci nad neznámými daty.
@ARTICLE{FITPUB10277, author = "Martin Hlosta and Rostislav Str\'{i}\v{z} and Jan Kup\v{c}\'{i}k and Jaroslav Zendulka and Tom\'{a}\v{s} Hru\v{s}ka", title = "Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm", pages = "214--218", journal = "International Journal of Machine Learning and Computing", volume = 2013, number = 3, year = 2013, ISSN = "2010-3700", language = "english", url = "https://www.fit.vut.cz/research/publication/10277" }