Detail publikace

Written Term Detection Improves Spoken Term Detection

YUSUF Bolaji a SARAÇLAR Murat. Written Term Detection Improves Spoken Term Detection. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 32, č. 06, 2024, s. 3213-3223. ISSN 2329-9290. Dostupné z: https://ieeexplore.ieee.org/document/10571348
Název česky
Detekce psaných pojmů zlepšuje detekci mluvených pojmů
Typ
článek v časopise
Jazyk
angličtina
Autoři
Yusuf Bolaji (UPGM FIT VUT)
Saraçlar Murat (UBOGAZ)
URL
Klíčová slova

Vyhledávání klíčových slov, detekce mluvených výrazů, vyhledávání klíčových slov, komplexní vyhledávání klíčových slov, multitaskingové učení, adaptace domény, modelování maskovaného jazyka.

Abstrakt

End-to-end (E2E) přístupy k vyhledávání klíčových slov (KWS) jsou podstatně jednodušší z hlediska trénování a složitosti indexování ve srovnání s přístupy, které využívají výstup systémů automatického rozpoznávání řeči (ASR). Toto zjednodušení má však nevýhody v důsledku ztráty modularity. Zejména tam, kde systémy KWS založené na ASR mohou těžit z externího nepárového textu prostřednictvím jazykového modelu, současné formulace systémů KWS E2E takový mechanismus nemají. Proto v tomto článku navrhujeme víceúlohový tréninkový cíl, který umožňuje integraci nepárového textu do E2E KWS bez komplikování indexování a vyhledávání. Kromě trénování modelu E2E KWS pro získávání textových dotazů z mluvených dokumentů jej společně trénujeme pro získávání textových dotazů z maskovaných písemných dokumentů. Empiricky ukazujeme, že tento přístup může efektivně využít nespárovaný text pro KWS s výrazným zlepšením výkonu vyhledávání v široké škále jazyků. Provádíme analýzu, která naznačuje, že těchto zlepšení bylo dosaženo, protože navrhovaná metoda zlepšuje reprezentaci dokumentu pro slova v nepárovém textu. Nakonec ukážeme, že navrhovanou metodu lze použít pro adaptaci domény v nastaveních, kde jsou párovaná data v doméně vzácná nebo neexistují.

Rok
2024
Strany
3213-3223
Časopis
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 32, č. 6, ISSN 2329-9290
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
001256333200007
EID Scopus
BibTeX
@ARTICLE{FITPUB13305,
   author = "Bolaji Yusuf and Murat Sara\c{c}lar",
   title = "Written Term Detection Improves Spoken Term Detection",
   pages = "3213--3223",
   journal = "IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
   volume = 32,
   number = 06,
   year = 2024,
   ISSN = "2329-9290",
   doi = "10.1109/TASLP.2024.3407476",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13305"
}
Nahoru