Detail publikace
R2-D2: A Modular Baseline for Open-Domain Question Answering
Dočekal Martin, Ing. (UPGM FIT VUT)
Ondřej Karel, Ing. (UPGM FIT VUT)
a další
odpovídaní na otázky, QA, ODQA, kombinace modelů, korpusy pro vyhledávání
Tato práce představuje nový čtyřúrovňový systém pro odpovídání na otázky nad otevřenou doménou nazvaný R2-D2 (Rank twice, reaD twice). Systém se skládá z modulu pro vyhledání relevantních pasáží textu (retriever), modulu pro přehodnocení relevantních pasáží (passage reranker), modulu pro extrahování odpovědi přímo z textu (extractive reader), modulu pro vygenerování odpovědi (generative reader) a mechanizmu pro agregování finální odpovědi ze všech komponent. Práce demonstruje sílu systému na třech datových sadách: NaturalQuestions, TriviaQA a EfficientQA, kde systém dosahuje state-of-the-art výsledků na prvních dvou zmíněných. Naše analýzy ukazují: (i) kombinace komponent "extractive reader" a "generative reader" přináší absolutní zlepšení o 5% na metrice "exact match" a je nejméně dvakrát efektivnější než posteriorní zprůměrování výsledků modelů stejného typu s různými parametry, (ii) komponenta "extractie reader" s méně parametry může dosáhnout stejných celkových výsledků jako "generative reader" na extrakčních QA datových sadách.
@INPROCEEDINGS{FITPUB12624, author = "Martin Faj\v{c}\'{i}k and Martin Do\v{c}ekal and Karel Ond\v{r}ej and Pavel Smr\v{z} and et al.", title = "R2-D2: A Modular Baseline for Open-Domain Question Answering", pages = "854--870", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", series = "Findings of the Association for Computational Linguistics", year = 2021, location = "Punta Cana, DO", publisher = "Association for Computational Linguistics", ISBN = "978-1-955917-10-0", language = "english", url = "https://www.fit.vut.cz/research/publication/12624" }