Detail publikace

Machine Learning Metrics for Network Datasets Evaluation

SOUKUP Dominik, POLIAKOV Daniel, VAŠATA Daniel a ČEJKA Tomáš. Machine Learning Metrics for Network Datasets Evaluation. In: IFIP International Conference on ICT Systems Security and Privacy Protection. IFIP Advances in Information and Communication Technology. Poznan: Springer International Publishing, 2024, s. 307-320. ISBN 978-3-031-56325-6.
Název česky
Metriky strojového učení pro hodnocení datových sad v počítačových sítích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Soukup Dominik, Ing. (FIT ČVUT)
Poliakov Daniel, Ing. (UIFS FIT VUT)
Vašata Daniel, Ing., Ph.D. (FIT ČVUT)
Čejka Tomáš, doc. Ing., Ph.D. (FIT ČVUT)
Abstrakt

Kvalitní datové sady jsou nezbytným předpokladem pro využití strojového učení při zpracování dat a v poslední době i v oblasti bezpečnosti počítačových sítí. Kvalita datových sad však bývá často přehlížená a podceňována. Spolehlivé metriky pro měření a popis vstupních datových sad umožňují posoudit jejich využitelnost. Nedokonalé datové sady mohou vyžadovat optimalizaci nebo aktualizaci, například přidáním více dat či sloučením třídních štítků. Pokud datová sada neobsahuje dostatek informací, aplikace algoritmů strojového učení nepřinese praktickou hodnotu. Tato práce se zabývá tématy hodnocení datových sad a chybějících metrik. Navrhujeme tři nové metriky, které odhadují kvalitu vstupní datové sady a napomáhají jejímu vylepšení nebo vytvoření nové sady. Tento článek popisuje experimenty provedené na veřejně dostupných datových sadách s cílem ukázat přínosy navržených metrik a teoretické definice pro snadnější interpretaci. Implementovali jsme a zveřejnili kód v jazyce Python, aby mohly být metriky přijaty vědeckou komunitou.

Rok
2024
Strany
307-320
Sborník
IFIP International Conference on ICT Systems Security and Privacy Protection
Řada
IFIP Advances in Information and Communication Technology
Konference
38th International Conference on ICT Systems Security and Privacy Protection, Poznan, PL
ISBN
978-3-031-56325-6
Vydavatel
Springer International Publishing
Místo
Poznan, PL
BibTeX
@INPROCEEDINGS{FITPUB13310,
   author = "Dominik Soukup and Daniel Poliakov and Daniel Va\v{s}ata and Tom\'{a}\v{s} \v{C}ejka",
   title = "Machine Learning Metrics for Network Datasets Evaluation",
   pages = "307--320",
   booktitle = "IFIP International Conference on ICT Systems Security and Privacy Protection",
   series = "IFIP Advances in Information and Communication Technology",
   year = 2024,
   location = "Poznan, PL",
   publisher = "Springer International Publishing",
   ISBN = "978-3-031-56325-6",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13310"
}
Nahoru