Detail publikace

DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors

LANDINI Federico Nicolás, DIEZ Sánchez Mireia, STAFYLAKIS Themos a BURGET Lukáš. DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors. IEEE Transactions on Audio, Speech, and Language Processing, roč. 32, č. 7, 2024, s. 3450-3465. ISSN 1558-7916. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10584294
Název česky
DiaPer: End-to-End neurální diarizace mluvčích s atraktory založenými na modelech typu perceiver
Typ
článek v časopise
Jazyk
angličtina
Autoři
Landini Federico Nicolás (UPGM FIT VUT)
Diez Sánchez Mireia (UPV)
Stafylakis Themos (OMILIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Donedávna dominovaly na poli diarizace mluvčích kaskádové systémy. Díky svým omezením, zejména co se týče překrývání řeči a těžkopádných pipeline, si v poslední době získaly velkou oblibu end-to-end modely. Jedním z nejúspěšnějších modelů je end-to-end neurální diarizace s atraktory založenými na kodéru a dekodéru (EEND-EDA). V této práci nahrazujeme modul EDA modulem založeným na perceiveru a ukazujeme jeho výhody oproti EEND-EDA; jmenovitě získání lepšího výkonu na převážně studovaném datovém souboru Callhome, přesnější zjištění počtu mluvčích v konverzaci a rychlejší inferenční čas. Navíc, při vyčerpávajícím srovnání s jinými metodami, náš model, DiaPer, dosahuje pozoruhodného výkonu s velmi lehkým designem. Kromě toho provádíme srovnání s jinými díly a kaskádovou základní linií napříč více než deseti veřejnými širokopásmovými datovými sadami. Spolu s touto publikací uvolňujeme kód DiaPer i modely trénované na veřejných a bezplatných datech.

Rok
2024
Strany
3450-3465
Časopis
IEEE Transactions on Audio, Speech, and Language Processing, roč. 32, č. 7, ISSN 1558-7916
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
001283673700005
EID Scopus
BibTeX
@ARTICLE{FITPUB13279,
   author = "Nicol\'{a}s Federico Landini and Mireia S\'{a}nchez Diez and Themos Stafylakis and Luk\'{a}\v{s} Burget",
   title = "DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors",
   pages = "3450--3465",
   journal = "IEEE Transactions on Audio, Speech, and Language Processing",
   volume = 32,
   number = 7,
   year = 2024,
   ISSN = "1558-7916",
   doi = "10.1109/TASLP.2024.3422818",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13279"
}
Nahoru