Detail publikace
Progressive contrastive learning for self-supervised text-independent speaker verification
Zhang Chunlei (Tencent AI Lab)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Yu Dong (Tencent AI Lab)
Samokontrolované učení reprezentace mluvčího v posledních letech vzbudilo velkou pozornost. Většina práce je založena na iterativní klasifikaci seskupení učebních rámců a výkon je citlivý na předem definovaný počet clusterů. Nicméně, počet clusteru je těžké odhadnout, když s ním zachází rozsáhlá neoznačená data. V tomto dokumentu navrhujeme algoritmus progresivního kontrastivního učení (PCL). dynamicky odhadnout počet shluků v každém kroku na základě statistických charakteristik samotných dat, a odhadovaný počet se bude postupně přibližovat se vzrůstajícím počtem pozemských mluvčích krok. Konkrétně nejprve aktualizujeme datovou frontu o aktuální rozšířené vzorky. Pak eigendecomposition je zaveden pro odhad počtu mluvčích v aktualizovaná datová fronta. Nakonec přiřadíme data ve frontě do odhadnutého těžiště klastru a zkonstruujte kontrastivní ztráta, která podporuje reprezentaci mluvčího být blíže svému těžišti shluku a daleko od ostatních. Experimentální výsledky na VoxCeleb1 prokazují účinnost našeho navrhovaného PCL ve srovnání se stávajícími přístupy s vlastním dohledem.
@INPROCEEDINGS{FITPUB12835, author = "Junyi Peng and Chunlei Zhang and Jan \v{C}ernock\'{y} and Dong Yu", title = "Progressive contrastive learning for self-supervised text-independent speaker verification", pages = "17--24", booktitle = "Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022)", year = 2022, location = "Beijing, CN", publisher = "International Speech Communication Association", doi = "10.21437/Odyssey.2022-3", language = "english", url = "https://www.fit.vut.cz/research/publication/12835" }