From Modular to End-to-End Speaker Diarization

Název česky

Od modulárních k celostním systémům diarizace řečníka

Jazyk práce

anglický

Abstrakt

Diarizace mluvčího se obvykle popisuje jako úloha, která určuje, "kdo kdy mluvil" v nahrávce. Ještě před několika lety byly všechny konkurenceschopné přístupy modulární, tj. detekce hlasové aktivity, segmentace, extrakce embeddingů, shlukování a detekce a zpracování překrývající se řeči byly řešeny různými subsystémy a aplikovány jeden po druhém. Takto konstruované systémy dosahovaly ve většině scénářů nejlepších výsledků, ale měly velké potíže vypořádat se s překrývající se řečí. V poslední době vzbudil velkou pozornost nástup end-to-end modelů, které jsou schopny řešit všechny aspekty diarizace mluvčího pomocí jediného modelu a mají lepší úspěšnost, pokud jde o překrývající se řeč. Tato práce vznikla v období koexistence těchto dvou trendů. Popisujeme systém založený na bayesovském skrytém Markovově modelu používaném ke shlukování x-vektorů (embeddingů mluvčích získaných pomocí neuronové sítě), známý jako VBx, který prokázal pozoruhodnou úspěšnost na různých souborech dat a evaluačních v různých kampaních. Popíšeme jeho výhody a omezení a vyhodnotíme výsledky na různých relevantních korpusech. Poté přejdeme k metodám end-to-end neuronové diarizace (EEND). Vzhledem k potřebě velkých trénovacích sad pro trénování těchto modelů a nedostatku ručně anotovaných diarizačních dat v dostatečném množství spočívá kompromisní řešení v umělém generování trénovacích dat. Popíšeme přístup ke generování syntetických dat, která se z hlediska změn a překryvů mluvčích podobají skutečným rozhovorům. Ukážeme, jak tato metoda generování simulovaných konverzací umožňuje dosáhnout lepší úspěšnosti než dříve navržená metoda vytváření simulovaných směsí při trénování populárního EEND s enkodér-dekodér atraktory (EEND-EDA). Navrhneme také nový model založený na EEND, který nazýváme DiaPer, a ukážeme, že může dosáhnout lepších výsledků než EEND-EDA, zejména při práci s mnoha mluvčími a při zpracování překrývající se řeči.Nakonec porovnáváme oba systémy, VBx i DiaPer, na široké škále datových sad a prodiskutejeme výhody každého z nich.

Klíčová slova

Diarizace mluvčího, VBx, neuronová diarizace end-to-end, simulované rozhovory, DiaPer.

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Výpočetní technika a informatika, obor Výpočetní technika a informatika

Soubory

Stav

obhájeno

Obhajoba

27. června 2024

Citace

LANDINI, Federico. From Modular to End-to-End Speaker Diarization. Brno, 2023. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2024-06-27. Vedoucí práce Burget Lukáš. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1357/

BibTeX

@phdthesis{FITPT1357,
    author = "Nicol\'{a}s Federico Landini",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "From Modular to End-to-End Speaker Diarization",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2024,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/1357/"
}