Detail publikace
BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge
Klement Dominik, Bc. (UPGM)
Han Jiangyu (UPGM)
Sedláček Šimon, Ing. (UPGM)
Yusuf Bolaji (UPGM)
Maciejewski Matthew
Wiesner Matthew, PhD.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
multi-talker speech recognition, CHiME-8, NOTSOFAR-1, target-speaker
Tento článek představuje naši metodu pro řešení úlohy NOTSOFAR-1 ve výzvě CHIME-8, která vyžaduje, aby účastníci prováděli automatické rozpoznávání řeči s více mluvčími (ASR) pomocí zvuku ze vzdálených mikrofonních polí. Modifikujeme diarizační kanál Pyannote3, začleňujeme předem trénovaný WavLM jako místní EEND, aby se efektivně přizpůsobil novým doménám, a zavádíme dva přístupy k ASR s ohledem na diarizizaci tím, že Whisper podmiňujeme diarizovými výstupy pro ASR cílových mluvčích. První metoda, kterou označujeme jako Query-Key Biasing, upravuje Whisperův mechanismus pozornosti a poziční vložení pomocí masky pozornosti, kterou lze naučit, aby se ve zvuku vyloučily segmenty necílových mluvčích. Druhá metoda, nazvaná Frame-Level Diarization-Dependent Transformations, aplikuje afinní, diarizaci závislé transformace s trénovatelnými parametry na vstupy jednoho nebo více transformátorových bloků. Začleněním mezikanálové komunikace do našich modelů také rozšiřujeme jak ASR, tak diarizační systémy na vícekanálové nastavení. Nakonec uvádíme výkon těchto přístupů na datovém souboru NOTSOFAR-1.
@inproceedings{BUT194002,
author="Alexander {Polok} and Dominik {Klement} and Jiangyu {Han} and Šimon {Sedláček} and Bolaji {Yusuf} and Matthew {Maciejewski} and Matthew {Wiesner} and Lukáš {Burget}",
title="BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge",
booktitle="Proceedings of CHiME 2024 Workshop",
year="2024",
pages="18--22",
publisher="International Speech Communication Association",
address="Kos Island",
doi="10.21437/CHiME.2024-4",
url="https://www.isca-archive.org/chime_2024/polok24_chime.pdf"
}