Detail publikace
Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation
Pecher Branislav, Ing. (UPGM FIT VUT)
Šimko Jakub, doc. Ing., Ph.D. (UPGM FIT VUT)
Srba Ivan ()
Bieliková Mária, prof. Ing., PhD. (UPGM FIT VUT)
velké jazykové modely, augmentace dat, lexikální diverzita, augmentace textu, crowdsourcing
Nejnovější generativní velké jazykové modely (LLM) našly své uplatnění v úlohách rozšiřování dat, kde jsou malé počty textových vzorků parafrázovány LLM a poté použity k doladění navazujících modelů. Je však zapotřebí dalšího výzkumu, aby bylo možné posoudit, jak různé výzvy, strategie výběru výchozích dat, metody filtrování nebo nastavení modelu ovlivňují kvalitu parafrázovaných dat (a následných modelů). V této studii zkoumáme tři metody pro rozmanitost textu dobře zavedené v crowdsourcingu: tabuizovaná slova, náznaky dřívějších odlehlých řešení a řetězení předchozích odlehlých řešení. Pomocí těchto podnětových metod jako součásti instrukcí LLM rozšiřujících textové datové sady měříme jejich účinky na lexikální rozmanitost generovaných textů a na výkonu následného modelu. Porovnáváme účinky na 5 různých LLM, 6 souborech dat a 2 navazujících modelech. Ukazujeme, že rozmanitost nejvíce zvyšují tabuizovaná slova, ale výkon následného modelu je nejvyšší s nápovědami.
@INPROCEEDINGS{FITPUB13151, author = "J\'{a}n \v{C}egi\v{n} and Branislav Pecher and Jakub \v{S}imko and Ivan Srba and M\'{a}ria Bielikov\'{a}", title = "Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation", pages = "13148--13171", booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", year = 2024, location = "Bangkok, TH", publisher = "Association for Computational Linguistics", ISBN = "979-8-8917-6094-3", doi = "10.18653/v1/2024.acl-long.710", language = "english", url = "https://www.fit.vut.cz/research/publication/13151" }