Detail publikace
From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization
Lozano Díez Alicia (UAM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Koncová neuronová diarizace (EEND) je v současnosti jedním z nejvýznamnějších výzkumných témat v oblasti diarizace mluvčích. EEND představuje atraktivní alternativu ke standardním kaskádovým diarizačním systémům, protože k řešení celého problému diarizace je najednou natrénován jediný systém. Je navrženo několik variant a přístupů EEND, nicméně všechny tyto modely vyžadují pro trénování velké množství anotovaných dat, ale dostupných anotovaných dat je málo. Práce EEND proto k trénování většinou používaly simulované směsi. Simulované směsi se však v mnoha ohledech nepodobají skutečným konverzacím. V této práci představujeme alternativní metodu pro vytváření syntetických konverzací, které se podobají skutečným, pomocí statistik o rozložení pauz a překryvů odhadnutých na skutečných konverzacích. Dále analyzujeme vliv zdroje statistik, různých rozšíření a množství dat. Ukazujeme, že náš přístup funguje podstatně lépe než původní přístup a zároveň snižuje závislost na fázi jemného dolaďování. Experimenty provádíme na telefonních rozhovorech se dvěma mluvčími Callhome a DIHARD 3. Společně s touto publikací vydáváme naše implementace EEND a metodu pro vytváření simulovaných rozhovorů.
@INPROCEEDINGS{FITPUB12846, author = "Nicol\'{a}s Federico Landini and Alicia D\'{i}ez Lozano and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget", title = "From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization", pages = "5095--5099", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2022, number = 9, year = 2022, location = "Incheon, KR", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2022-10451", language = "english", url = "https://www.fit.vut.cz/research/publication/12846" }