Detail publikace
Diacorrect: Error Correction Back-End for Speaker Diarization
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
DIEZ SÁNCHEZ, M.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
CAO, Y.
LU, H.
Černocký Jan, prof. Dr. Ing. (UPGM)
Speaker diarization, error correction, conversational telephone speech
V této práci navrhujeme rámec pro opravu chyb, nazvaný DiaCorrect, pro zpřesnění
výstupu diarizačního systému jednoduchým, ale účinným způsobem. Tato metoda je
inspirována technikami opravy chyb v automatickém rozpoznávání řeči. Náš model se
skládá ze dvou paralelních konvolučních kodérů a transformátorového dekodéru.
Využitím interakcí mezi vstupní nahrávkou a výchozími výstupy systému může
DiaCorrect automaticky korigovat počáteční aktivity řečníků, aby se
minimalizovaly chyby diarizování. Experimenty na datech 2-speaker telefonie
ukazují, že navrhovaný DiaCorrect může účinně zlepšit výsledky původního modelu.
Náš zdrojový kód je veřejně dostupný na
https://github.com/BUTSpeechFIT/diacorrect.
@inproceedings{BUT189697,
author="HAN, J. and LANDINI, F. and ROHDIN, J. and DIEZ SÁNCHEZ, M. and BURGET, L. and CAO, Y. and LU, H. and ČERNOCKÝ, J.",
title="Diacorrect: Error Correction Back-End for Speaker Diarization",
booktitle="ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
year="2024",
pages="11181--11185",
publisher="IEEE Signal Processing Society",
address="Seoul",
doi="10.1109/ICASSP48485.2024.10446968",
isbn="979-8-3503-4485-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446968"
}