Téma disertační práce

System pro rozpoznávání řeči více mluvčích využívající velké předtrénované modely s diskrétními latentními reprezentacemi

Ak. rok 2025/2026

Školitel: Burget Lukáš, doc. Ing., Ph.D.

Ústav: Ústav počítačové grafiky a multimédií

Programy:
Informační technologie (DIT) - prezenční studium

Tato disertační práce se zaměří na vývoj pokročilých systémů pro automatické rozpoznávání řeči v prostředí s více mluvčími, využívajících velké předtrénované modely a latentní reprezentace. Klíčovou výzvou v těchto systémech je efektivní zpracování překrývající se řeči, což se tradičně řeší pomocí postupů zahrnujících diarizaci mluvčích, separaci zdrojů a rozpoznávání řeči jednotlivých mluvčích. Tato disertační práce bude zkoumat, jak mohou nedávné pokroky v oblasti neurálních audio kodeků a samořízeného učení přispět k integrovanějšímu a efektivnějšímu přístupu. Výzkum bude zahrnovat porozumění stávajícím metodologiím, navrhování nových architektur a hodnocení jejich výkonu na standardních datových sadách, s celkovým cílem zlepšit robustnost a škálovatelnost systémů rozpoznávání řeči pro více mluvčích v reálných scénářích.

Nahoru