Detail publikace
IDIAPers @ Causal News Corpus 2022: Extracting Cause-Effect-Signal Triplets via Pre-trained Autoregressive Language Model
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
a další
extrakce kauzálnych vztahov, kauzálne vztahy, príčina, signál, následek, novinové média,
V tomto článku popisujeme podúkol 2 v CASE-2022, Event Causality Identification with Casual News Corpus. Výzva se zaměřila na automatickou detekci všech textovych rozsahů příčina-následok-signál konstrukcí přítomných ve větě ze zpravodajských médií. Rozsahy zjišťujeme pomocí T5 --- předtrénovaného autoregresivního jazykového modelu. Iterativně identifikujeme všechny triplety textovych rozsahů příčina-následek-signál, přičemž vždy podmiňujeme predikci dalšího tripletu na dříve predikovaných. Abychom predikovali samotný triplet, uvažujeme různé kauzální vztahy, jako napr. příčina->následek->signál. Každá složka tripletu je generována pomocí jazykového modelu podmíněného větou, předchozími částmi aktuálního tripletu a dříve predikovanými triplety. Navzdory tréninku na extrémně malém datovém souboru 160 vzorků náš přístup dosáhl konkurenceschopného výkonu a umístil se na druhém místě v soutěži. Dále ukazujeme, že za kauzalnych predpokladov příčina->následek, nebo následek->příčina, dosáhne systém podobných výsledků.
@INPROCEEDINGS{FITPUB12838, author = "Martin Faj\v{c}\'{i}k and Pavel Smr\v{z} and Petr Motl\'{i}\v{c}ek and Sergio Burdisso and et al.", title = "IDIAPers @ Causal News Corpus 2022: Extracting Cause-Effect-Signal Triplets via Pre-trained Autoregressive Language Model", pages = "70--78", booktitle = "Proceedings of the 5th Workshop on Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2022)", year = 2022, location = "Abu Dhabi, AE", publisher = "Association for Computational Linguistics", ISBN = "978-1-959429-05-0", doi = "10.18653/v1/2022.case-1.10", language = "english", url = "https://www.fit.vut.cz/research/publication/12838" }