Detail publikace
Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Lozano Díez Alicia (UAM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
End-to-end diarizace představuje atraktivní alternativu ke standardním kaskádovým diarizovým systémům, protože jediný systém zvládne všechny aspekty úkolu najednou. Bylo navrženo mnoho variant end-to-end modelů, ale všechny vyžadují (zatím neexistující) velké množství anotovaných dat pro trénování. Kompromisní řešení spočívá ve generování syntetických dat a nedávno navržené simulované konverzace (SC) ukázaly pozoruhodná zlepšení oproti původním simulovaným směsím (SM). V této práci vytváříme SC s více mluvčími v konverzaci a ukazujeme, že umožňují podstatně lepší výkon než SM a také snižují závislost na dolaďovací fázi. Vytváříme také SC s širokopásmovými veřejnými audio zdroji a předkládáme analýzu několika vyhodnocovacích sad. Společně s touto publikací zveřejňujeme recepty na generování takových dat a modelů trénovaných na veřejných sestavách a také implementaci pro efektivní zpracování více mluvčích na konverzaci a ztrátu detekce pomocné hlasové aktivity.
@INPROCEEDINGS{FITPUB13051, author = "Nicol\'{a}s Federico Landini and Mireia S\'{a}nchez Diez and Alicia D\'{i}ez Lozano and Luk\'{a}\v{s} Burget", title = "Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization", pages = "1--5", booktitle = "Proceedings of ICASSP 2023", year = 2023, location = "Rhodes Island, GR", publisher = "IEEE Signal Processing Society", ISBN = "978-1-7281-6327-7", doi = "10.1109/ICASSP49357.2023.10097049", language = "english", url = "https://www.fit.vut.cz/research/publication/13051" }