Detail publikace

Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?

ZHANG, L.; STAFYLAKIS, T.; LANDINI, F.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; BURGET, L. Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?. Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop. Québec City: International Speech Communication Association, 2024. p. 123-130.

Název česky

Potřebují atraktory pro neurální end-to-end diarizaci kódovat informaci o mluvčích ?

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

ZHANG, L.
Stafylakis Themos
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
DIEZ SÁNCHEZ, M.
Silnova Anna, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

End-to-End Neural Diarization, Speaker Characteristic Information

Abstrakt

V tomto článku aplikujeme přístup s variačním informačním úzkým hrdlem na end-to-end neurální diarizaci s atraktory kodér-dekodér (EEND-EDA). To nám umožňuje zjistit, jaké informace jsou pro model zásadní. EEND-EDA využívá atraktory, vektorové reprezentace mluvčích v konverzaci. Naše analýza ukazuje, že atraktory nemusí nutně obsahovat informace o charakteristikách mluvčího. Na druhou stranu, poskytnutí větší volnosti atraktorům, které jim umožní zakódovat nějaké další (pravděpodobně specifické pro mluvčího) informace, vede k malým, ale konzistentním zlepšením diarizačního výkonu. Navzdory architektonickým rozdílům v systémech EEND je představa atraktorů a vestavění rámu pro většinu z nich společná a není specifická pro EEND-EDA. Domníváme se, že hlavní závěry této práce lze aplikovat i na další varianty EEND. Doufáme tedy, že tento dokument bude cenným příspěvkem, který pomůže komunitě činit informovanější rozhodnutí při navrhování nových systémů.

Rok

2024

Strany

123–130

Sborník

Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop

Konference

Odyssey 2024: The Speaker and Language Recognition Workshop, Quebec, Canada, CA

Vydavatel

International Speech Communication Association

Místo

Québec City

DOI

10.21437/odyssey.2024-18

BibTeX

@inproceedings{BUT193432,
  author="ZHANG, L. and STAFYLAKIS, T. and LANDINI, F. and DIEZ SÁNCHEZ, M. and SILNOVA, A. and BURGET, L.",
  title="Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?",
  booktitle="Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
  year="2024",
  pages="123--130",
  publisher="International Speech Communication Association",
  address="Québec City",
  doi="10.21437/odyssey.2024-18",
  url="https://www.isca-archive.org/odyssey_2024/zhang24_odyssey.pdf"
}

Soubory

pdf zhang_2024_odyssey.pdf 5 MB