Detail publikace

Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization

LANDINI Federico Nicolás, DIEZ Sánchez Mireia, LOZANO Díez Alicia a BURGET Lukáš. Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization. In: Proceedings of ICASSP 2023. Rhodes Island: IEEE Signal Processing Society, 2023, s. 1-5. ISBN 978-1-7281-6327-7. Dostupné z: https://ieeexplore.ieee.org/document/10097049
Název česky
Simulované rozhovory s více mluvčími v širokém kmitočtovém pásmu jako trénovací data pro celostní neurální diarizaci
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Landini Federico Nicolás (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Lozano Díez Alicia (UAM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

End-to-end diarizace představuje atraktivní alternativu ke standardním kaskádovým diarizovým systémům, protože jediný systém zvládne všechny aspekty úkolu najednou. Bylo navrženo mnoho variant end-to-end modelů, ale všechny vyžadují (zatím neexistující) velké množství anotovaných dat pro trénování. Kompromisní řešení spočívá ve generování syntetických dat a nedávno navržené simulované konverzace (SC) ukázaly pozoruhodná zlepšení oproti původním simulovaným směsím (SM). V této práci vytváříme SC s více mluvčími v konverzaci a ukazujeme, že umožňují podstatně lepší výkon než SM a také snižují závislost na dolaďovací fázi. Vytváříme také SC s širokopásmovými veřejnými audio zdroji a předkládáme analýzu několika vyhodnocovacích sad. Společně s touto publikací zveřejňujeme recepty na generování takových dat a modelů trénovaných na veřejných sestavách a také implementaci pro efektivní zpracování více mluvčích na konverzaci a ztrátu detekce pomocné hlasové aktivity.

Rok
2023
Strany
1-5
Sborník
Proceedings of ICASSP 2023
Konference
2023 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Rhodes Island, Greece, GR
ISBN
978-1-7281-6327-7
Vydavatel
IEEE Signal Processing Society
Místo
Rhodes Island, GR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13051,
   author = "Nicol\'{a}s Federico Landini and Mireia S\'{a}nchez Diez and Alicia D\'{i}ez Lozano and Luk\'{a}\v{s} Burget",
   title = "Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2023",
   year = 2023,
   location = "Rhodes Island, GR",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-7281-6327-7",
   doi = "10.1109/ICASSP49357.2023.10097049",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13051"
}
Nahoru