Detail publikace

Multi-Channel Extension of Pre-trained Models for Speaker Verification

MOŠNER Ladislav, SERIZEL Romain, BURGET Lukáš, PLCHOT Oldřich, VINCENT Emmanuel, PENG Junyi a ČERNOCKÝ Jan. Multi-Channel Extension of Pre-trained Models for Speaker Verification. In: Proceedings of Interspeech 2024. Kos: International Speech Communication Association, 2024, s. 2135-2139. ISSN 1990-9772. Dostupné z: https://www.isca-archive.org/interspeech_2024/mosner24_interspeech.pdf

Název česky

Vícekanálové rozšíření předtrénovaných modelů pro ověřování mluvčího

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Mošner Ladislav, Ing. (UPGM FIT VUT)
Serizel Romain (LORIA)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Vincent Emmanuel (LORIA)
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)

URL

https://www.isca-archive.org/interspeech_2024/mosner24_interspeech.pdf

Abstrakt

V této práci se zaměřujeme na návrh vícekanálové řeči systém zpracování založený na velkých předem vyškolených modelech. Tyto modely jsou obvykle trénovány pro jednokanálové scénáře prostřednictvím samokontrolované učení (SSL). Běžný přístup k použití modely SSL s daty pole mikrofonů je mají předřadit s vícekanálovým vylepšením řeči. Nevýhodou je, že prostorové informace lze využít pouze předzpracováním fázi a chyby vylepšení se přenesou do modelu SSL. Naším cílem je tento problém zmírnit navržením METRO, multi- kanál Rozšíření pRetrénovaných modelů. Prokládá se zpracování kanálů s výměnou informací mezi kanály, případně sloučení kanálů do jednoho. Zatímco náš přístup je gen- Nyní se zaměříme na ověření vícekanálových reproduktorů. Náš experimenty na korpusu MultiSV ukazují pozoruhodné zlepšení porovnává nejlépe publikované výsledky na datovém souboru

Rok

2024

Strany

2135-2139

Časopis

Proceedings of Interspeech - on-line, roč. 2024, č. 9, ISSN 1990-9772

Sborník

Proceedings of Interspeech 2024

Konference

Interspeech Conference, Kos, GR

Vydavatel

International Speech Communication Association

Místo

Kos, GR

DOI

10.21437/Interspeech.2024-1260

BibTeX

@INPROCEEDINGS{FITPUB13322,
   author = "Ladislav Mo\v{s}ner and Romain Serizel and Luk\'{a}\v{s} Burget and Old\v{r}ich Plchot and Emmanuel Vincent and Junyi Peng and Jan \v{C}ernock\'{y}",
   title = "Multi-Channel Extension of Pre-trained Models for Speaker Verification",
   pages = "2135--2139",
   booktitle = "Proceedings of Interspeech 2024",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2024,
   number = 9,
   year = 2024,
   location = "Kos, GR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2024-1260",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13322"
}