Detail publikace

Diacorrect: Error Correction Back-End for Speaker Diarization

HAN Jiangyu, LANDINI Federico Nicolás, ROHDIN Johan A., DIEZ Sánchez Mireia, BURGET Lukáš, CAO Yuhang, LU Heng a ČERNOCKÝ Jan. Diacorrect: Error Correction Back-End for Speaker Diarization. In: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul: IEEE Signal Processing Society, 2024, s. 11181-11185. ISBN 979-8-3503-4485-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446968
Název česky
Diacorrect: Back-End pro opravu chyb diarizace řečníka
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Han Jiangyu, M.Eng. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Cao Yuhang (Ximalaya)
Lu Heng (Ximalaya)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V této práci navrhujeme rámec pro opravu chyb, nazvaný DiaCorrect, pro zpřesnění výstupu diarizačního systému jednoduchým, ale účinným způsobem. Tato metoda je inspirována technikami opravy chyb v automatickém rozpoznávání řeči. Náš model se skládá ze dvou paralelních konvolučních kodérů a transformátorového dekodéru. Využitím interakcí mezi vstupní nahrávkou a výchozími výstupy systému může DiaCorrect automaticky korigovat počáteční aktivity řečníků, aby se minimalizovaly chyby diarizování. Experimenty na datech 2-speaker telefonie ukazují, že navrhovaný DiaCorrect může účinně zlepšit výsledky původního modelu. Náš zdrojový kód je veřejně dostupný na https://github.com/BUTSpeechFIT/diacorrect.

Rok
2024
Strany
11181-11185
Sborník
ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Konference
2024 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul, KR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13268,
   author = "Jiangyu Han and Nicol\'{a}s Federico Landini and A. Johan Rohdin and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget and Yuhang Cao and Heng Lu and Jan \v{C}ernock\'{y}",
   title = "Diacorrect: Error Correction Back-End for Speaker Diarization",
   pages = "11181--11185",
   booktitle = "ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
   year = 2024,
   location = "Seoul, KR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "979-8-3503-4485-1",
   doi = "10.1109/ICASSP48485.2024.10446968",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13268"
}
Nahoru