Detail publikace

R2-D2: A Modular Baseline for Open-Domain Question Answering

FAJČÍK Martin, DOČEKAL Martin, ONDŘEJ Karel a SMRŽ Pavel a kol. R2-D2: A Modular Baseline for Open-Domain Question Answering. In: Findings of the Association for Computational Linguistics: EMNLP 2021. Findings of the Association for Computational Linguistics. Punta Cana: Association for Computational Linguistics, 2021, s. 854-870. ISBN 978-1-955917-10-0. Dostupné z: https://aclanthology.org/2021.findings-emnlp.73.pdf
Název česky
R2-D2: Modulární systém pro odpovídání na otázky nad otevřenou doménou
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Fajčík Martin, Ing., Ph.D. (UPGM FIT VUT)
Dočekal Martin, Ing. (UPGM FIT VUT)
Ondřej Karel, Ing. (UPGM FIT VUT)
a další
URL
Klíčová slova

odpovídaní na otázky, QA, ODQA, kombinace modelů, korpusy pro vyhledávání 

Abstrakt

Tato práce představuje nový čtyřúrovňový systém pro odpovídání na otázky nad otevřenou doménou nazvaný R2-D2 (Rank twice, reaD twice). Systém se skládá z modulu pro vyhledání relevantních pasáží textu (retriever), modulu pro přehodnocení relevantních pasáží (passage reranker), modulu pro extrahování odpovědi přímo z textu (extractive reader), modulu pro vygenerování odpovědi (generative reader) a mechanizmu pro agregování finální odpovědi ze všech komponent. Práce demonstruje sílu systému na třech datových sadách: NaturalQuestions, TriviaQA a EfficientQA, kde systém dosahuje state-of-the-art výsledků na prvních dvou zmíněných. Naše analýzy ukazují: (i) kombinace komponent "extractive reader" a "generative reader" přináší absolutní zlepšení o 5% na metrice "exact match" a je nejméně dvakrát efektivnější než posteriorní zprůměrování výsledků modelů stejného typu s různými parametry, (ii) komponenta "extractie reader" s méně parametry může dosáhnout stejných celkových výsledků jako "generative reader" na extrakčních QA datových sadách.

Rok
2021
Strany
854-870
Sborník
Findings of the Association for Computational Linguistics: EMNLP 2021
Řada
Findings of the Association for Computational Linguistics
Konference
Conference on Empirical Methods in Natural Language Processing, Punta Cana, DO
ISBN
978-1-955917-10-0
Vydavatel
Association for Computational Linguistics
Místo
Punta Cana, DO
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12624,
   author = "Martin Faj\v{c}\'{i}k and Martin Do\v{c}ekal and Karel Ond\v{r}ej and Pavel Smr\v{z} and et al.",
   title = "R2-D2: A Modular Baseline for Open-Domain Question Answering",
   pages = "854--870",
   booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
   series = "Findings of the Association for Computational Linguistics",
   year = 2021,
   location = "Punta Cana, DO",
   publisher = "Association for Computational Linguistics",
   ISBN = "978-1-955917-10-0",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12624"
}
Nahoru