Detail publikace
A Game for Crowdsourcing Adversarial Examples for False Information Detection
generování kontradiktorních dat, detekce falešných informací, hra s účelem, úkol lidské interakce, strojové učení
Modely detekce falešných informací jsou náchylné k útokům protivníka. Taková náchylnost je kritickou slabinou detekčních modelů. Automatizované vytváření nepřátelských vzorků může nakonec pomoci rozšířit trénovací sady a vytvořit robustnější modely detekce. Automaticky generované vzorky protivníka však často nezachovají význam obsažený v původním textu, což vede ke ztrátě informací. Jsou potřeba generátory nepřátelských vzorků, které dokážou zachovat původní význam. Abychom prozkoumali vlastnosti, které by takové generátory měly mít, a abychom informovali o jejich budoucím designu, provedli jsme studii ke sběru nepřátelských vzorků od lidských agentů pomocí hry s určitým účelem (GWAP). Cílem hráče je upravovat daný tweet, dokud není detekční model oklamán, čímž se vytvoří nepřátelský vzorek. Kvalitativně jsme analyzovali shromážděné vzorky protivníků a identifikovali požadované vlastnosti/strategie, které by měl generátor zachovávání významu protivníka vykazovat. Tyto strategie jsou ověřeny na modelech detekce založených na transformátoru a modelech LSTM, aby se potvrdila jejich použitelnost na různých modelech. Na základě těchto zjištění navrhujeme nový generátorový přístup, který bude vykazovat požadované vlastnosti, aby bylo možné generovat vysoce kvalitní vzorky protivníků uchovávajících informace.
@INPROCEEDINGS{FITPUB12734, author = "J\'{a}n \v{C}egi\v{n}", title = "A Game for Crowdsourcing Adversarial Examples for False Information Detection", pages = "13--25", booktitle = "CEUR Workshop Proceedings", journal = "CEUR Workshop Proceedings", volume = 2022, number = 2022, year = 2022, location = "V\'{i}de\v{n}, AT", publisher = "CEUR-WS.org", ISSN = "1613-0073", language = "english", url = "https://www.fit.vut.cz/research/publication/12734" }