Detail publikace
DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors
Diez Sánchez Mireia (UPV)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Donedávna dominovaly na poli diarizace mluvčích kaskádové systémy. Díky svým omezením, zejména co se týče překrývání řeči a těžkopádných pipeline, si v poslední době získaly velkou oblibu end-to-end modely. Jedním z nejúspěšnějších modelů je end-to-end neurální diarizace s atraktory založenými na kodéru a dekodéru (EEND-EDA). V této práci nahrazujeme modul EDA modulem založeným na perceiveru a ukazujeme jeho výhody oproti EEND-EDA; jmenovitě získání lepšího výkonu na převážně studovaném datovém souboru Callhome, přesnější zjištění počtu mluvčích v konverzaci a rychlejší inferenční čas. Navíc, při vyčerpávajícím srovnání s jinými metodami, náš model, DiaPer, dosahuje pozoruhodného výkonu s velmi lehkým designem. Kromě toho provádíme srovnání s jinými díly a kaskádovou základní linií napříč více než deseti veřejnými širokopásmovými datovými sadami. Spolu s touto publikací uvolňujeme kód DiaPer i modely trénované na veřejných a bezplatných datech.
@ARTICLE{FITPUB13279, author = "Nicol\'{a}s Federico Landini and Mireia S\'{a}nchez Diez and Themos Stafylakis and Luk\'{a}\v{s} Burget", title = "DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors", pages = "3450--3465", journal = "IEEE Transactions on Audio, Speech, and Language Processing", volume = 32, number = 7, year = 2024, ISSN = "1558-7916", doi = "10.1109/TASLP.2024.3422818", language = "english", url = "https://www.fit.vut.cz/research/publication/13279" }