Detail práce

From Modular to End-to-End Speaker Diarization

Disertační práce Student: Landini Federico Nicolás Akademický rok: 2023/2024 Vedoucí: Burget Lukáš, doc. Ing., Ph.D.
Název česky
Od modulárních k celostním systémům diarizace řečníka
Jazyk práce
anglický
Abstrakt

Diarizace mluvčího se obvykle popisuje jako úloha, která určuje, "kdo kdy mluvil" v nahrávce. Ještě před několika lety byly všechny konkurenceschopné přístupy modulární, tj. detekce hlasové aktivity, segmentace, extrakce embeddingů, shlukování a detekce a zpracování překrývající se řeči byly řešeny různými subsystémy a aplikovány jeden po druhém. Takto konstruované systémy dosahovaly ve většině scénářů nejlepších výsledků, ale měly velké potíže vypořádat se s překrývající se řečí. V poslední době vzbudil velkou pozornost nástup end-to-end modelů, které jsou schopny řešit všechny aspekty diarizace mluvčího pomocí jediného modelu a mají lepší úspěšnost, pokud jde o překrývající se řeč.  Tato práce vznikla v období koexistence těchto dvou trendů. Popisujeme systém založený na bayesovském skrytém Markovově modelu používaném ke shlukování x-vektorů (embeddingů mluvčích získaných pomocí neuronové sítě), známý jako VBx, který prokázal pozoruhodnou úspěšnost na různých souborech dat a evaluačních v různých kampaních. Popíšeme jeho výhody a omezení a vyhodnotíme výsledky na různých relevantních korpusech. Poté přejdeme k metodám end-to-end neuronové diarizace (EEND). Vzhledem k potřebě velkých trénovacích sad pro trénování těchto modelů a nedostatku ručně anotovaných diarizačních dat v dostatečném množství spočívá kompromisní řešení v umělém generování trénovacích dat. Popíšeme přístup ke generování syntetických dat, která se z hlediska změn a překryvů mluvčích podobají skutečným rozhovorům. Ukážeme, jak tato metoda generování simulovaných konverzací umožňuje dosáhnout lepší úspěšnosti než dříve navržená metoda vytváření simulovaných směsí při trénování populárního EEND s enkodér-dekodér atraktory (EEND-EDA). Navrhneme také nový model založený na EEND, který nazýváme DiaPer, a ukážeme, že může dosáhnout lepších výsledků než EEND-EDA, zejména při práci s mnoha mluvčími a při zpracování překrývající se řeči.Nakonec porovnáváme oba systémy, VBx i DiaPer, na široké škále datových sad a prodiskutejeme výhody každého z nich.

Klíčová slova

Diarizace mluvčího, VBx, neuronová diarizace end-to-end, simulované rozhovory, DiaPer.

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
27. června 2024
Citace
LANDINI, Federico. From Modular to End-to-End Speaker Diarization. Brno, 2023. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2024-06-27. Vedoucí práce Burget Lukáš. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1357/
BibTeX
@phdthesis{FITPT1357,
    author = "Nicol\'{a}s Federico Landini",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "From Modular to End-to-End Speaker Diarization",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2024,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/1357/"
}
Nahoru