Detail publikace
Written Term Detection Improves Spoken Term Detection
Saraçlar Murat (UBOGAZ)
Vyhledávání klíčových slov, detekce mluvených výrazů, vyhledávání klíčových slov, komplexní vyhledávání klíčových slov, multitaskingové učení, adaptace domény, modelování maskovaného jazyka.
End-to-end (E2E) přístupy k vyhledávání klíčových slov (KWS) jsou podstatně jednodušší z hlediska trénování a složitosti indexování ve srovnání s přístupy, které využívají výstup systémů automatického rozpoznávání řeči (ASR). Toto zjednodušení má však nevýhody v důsledku ztráty modularity. Zejména tam, kde systémy KWS založené na ASR mohou těžit z externího nepárového textu prostřednictvím jazykového modelu, současné formulace systémů KWS E2E takový mechanismus nemají. Proto v tomto článku navrhujeme víceúlohový tréninkový cíl, který umožňuje integraci nepárového textu do E2E KWS bez komplikování indexování a vyhledávání. Kromě trénování modelu E2E KWS pro získávání textových dotazů z mluvených dokumentů jej společně trénujeme pro získávání textových dotazů z maskovaných písemných dokumentů. Empiricky ukazujeme, že tento přístup může efektivně využít nespárovaný text pro KWS s výrazným zlepšením výkonu vyhledávání v široké škále jazyků. Provádíme analýzu, která naznačuje, že těchto zlepšení bylo dosaženo, protože navrhovaná metoda zlepšuje reprezentaci dokumentu pro slova v nepárovém textu. Nakonec ukážeme, že navrhovanou metodu lze použít pro adaptaci domény v nastaveních, kde jsou párovaná data v doméně vzácná nebo neexistují.
@ARTICLE{FITPUB13305, author = "Bolaji Yusuf and Murat Sara\c{c}lar", title = "Written Term Detection Improves Spoken Term Detection", pages = "3213--3223", journal = "IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING", volume = 32, number = 06, year = 2024, ISSN = "2329-9290", doi = "10.1109/TASLP.2024.3407476", language = "english", url = "https://www.fit.vut.cz/research/publication/13305" }