Detail publikace
BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge
Klement Dominik, Bc. (FIT VUT)
Han Jiangyu, M.Eng. (UPGM FIT VUT)
Sedláček Šimon, Ing. (UPGM FIT VUT)
Yusuf Bolaji (UPGM FIT VUT)
Maciejewski Matthew (JHU)
Wiesner Matthew (JHU)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Tento článek představuje naši metodu pro řešení úlohy NOTSOFAR-1 ve výzvě CHIME-8, která vyžaduje, aby účastníci prováděli automatické rozpoznávání řeči s více mluvčími (ASR) pomocí zvuku ze vzdálených mikrofonních polí. Modifikujeme diarizační kanál Pyannote3, začleňujeme předem trénovaný WavLM jako místní EEND, aby se efektivně přizpůsobil novým doménám, a zavádíme dva přístupy k ASR s ohledem na diarizizaci tím, že Whisper podmiňujeme diarizovými výstupy pro ASR cílových mluvčích. První metoda, kterou označujeme jako Query-Key Biasing, upravuje Whisperův mechanismus pozornosti a poziční vložení pomocí masky pozornosti, kterou lze naučit, aby se ve zvuku vyloučily segmenty necílových mluvčích. Druhá metoda, nazvaná Frame-Level Diarization-Dependent Transformations, aplikuje afinní, diarizaci závislé transformace s trénovatelnými parametry na vstupy jednoho nebo více transformátorových bloků. Začleněním mezikanálové komunikace do našich modelů také rozšiřujeme jak ASR, tak diarizační systémy na vícekanálové nastavení. Nakonec uvádíme výkon těchto přístupů na datovém souboru NOTSOFAR-1.
@INPROCEEDINGS{FITPUB13338, author = "Alexander Polok and Dominik Klement and Jiangyu Han and \v{S}imon Sedl\'{a}\v{c}ek and Bolaji Yusuf and Matthew Maciejewski and Matthew Wiesner and Luk\'{a}\v{s} Burget", title = "BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge", pages = "18--22", booktitle = "Proceedings of CHiME 2024 Workshop", year = 2024, location = "Kos Island, GR", publisher = "International Speech Communication Association", doi = "10.21437/CHiME.2024-4", language = "english", url = "https://www.fit.vut.cz/research/publication/13338" }