Detail publikace
Multisv: Dataset for Far-Field Multi-Channel Speaker Verification
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Motivováni nekonsolidovanou datovou situací a nedostatkem standardního benchmarku v této oblasti, doplňujeme naše předchozí úsilí a představujeme komplexní korpus určený pro trénování a vyhodnocování textově nezávislých vícekanálových systémů ověřování mluvčích. Lze jej snadno použít také pro experimenty s dereverberací, odšumováním a zvýrazněním řeči. Vyřešili jsme všudypřítomný problém nedostatku vícekanálových trénovacích dat využitím simulace dat nad čistými částmi korpusu Voxceleb. Vývojové a vyhodnocovací testy jsou založeny na znovu přeneseném korpusu Voices Obscured in Complex Environmental Settings (VOiCES), který jsme upravili tak, aby poskytoval vícekanálové testy. Zveřejňujeme úplné recepty, které vytvářejí datovou sadu z veřejných zdrojů jako datovou sadu MultiSV, a poskytujeme výsledky se dvěma z našich vícekanálových systémů pro ověřování mluvčích založené na "beamforming" na bázi neuronové sítě založené buď na předpovídání ideálních binárních masek, nebo na novějším Conv-TasNet.
@INPROCEEDINGS{FITPUB12785, author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Multisv: Dataset for Far-Field Multi-Channel Speaker Verification", pages = "7977--7981", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2022, location = "Singapore, SG", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-0540-9", doi = "10.1109/ICASSP43922.2022.9746833", language = "english", url = "https://www.fit.vut.cz/research/publication/12785" }