Detail publikace
Machine Learning Metrics for Network Datasets Evaluation
Poliakov Daniel, Ing. (UIFS FIT VUT)
Vašata Daniel, Ing., Ph.D. (FIT ČVUT)
Čejka Tomáš, doc. Ing., Ph.D. (FIT ČVUT)
Kvalitní datové sady jsou nezbytným předpokladem pro využití strojového učení při zpracování dat a v poslední době i v oblasti bezpečnosti počítačových sítí. Kvalita datových sad však bývá často přehlížená a podceňována. Spolehlivé metriky pro měření a popis vstupních datových sad umožňují posoudit jejich využitelnost. Nedokonalé datové sady mohou vyžadovat optimalizaci nebo aktualizaci, například přidáním více dat či sloučením třídních štítků. Pokud datová sada neobsahuje dostatek informací, aplikace algoritmů strojového učení nepřinese praktickou hodnotu. Tato práce se zabývá tématy hodnocení datových sad a chybějících metrik. Navrhujeme tři nové metriky, které odhadují kvalitu vstupní datové sady a napomáhají jejímu vylepšení nebo vytvoření nové sady. Tento článek popisuje experimenty provedené na veřejně dostupných datových sadách s cílem ukázat přínosy navržených metrik a teoretické definice pro snadnější interpretaci. Implementovali jsme a zveřejnili kód v jazyce Python, aby mohly být metriky přijaty vědeckou komunitou.
@INPROCEEDINGS{FITPUB13310, author = "Dominik Soukup and Daniel Poliakov and Daniel Va\v{s}ata and Tom\'{a}\v{s} \v{C}ejka", title = "Machine Learning Metrics for Network Datasets Evaluation", pages = "307--320", booktitle = "IFIP International Conference on ICT Systems Security and Privacy Protection", series = "IFIP Advances in Information and Communication Technology", year = 2024, location = "Poznan, PL", publisher = "Springer International Publishing", ISBN = "978-3-031-56325-6", language = "english", url = "https://www.fit.vut.cz/research/publication/13310" }