Robust End-To-End SPEAKER recognition based on deep learning and attention models

Název česky

Robustní rozpoznávání SPEAKER na základě modelů hlubokého učení a pozornosti

Typ

grant

Klíčová slova

strojní učení, dolování dat, zpracování statistických dat a aplikace, numerická analýza, simulace, optimalizace, modelovací nástroje, zpracování signálů, neuronové sítě, spojovací systémy, fuzzy logika, složitost a kryptografie, elektronická bezpečnost, Sítě, modely pozornosti, hluboké učení, rozpoznávání jazyka, zpracování řeči

Abstrakt

Tento projekt se zaměřuje na automatické rozpoznávání reproduktorů (SID), úlohu určení totožnosti řečníka při záznamu řeči. Odstranění informací specifických pro reproduktory od ostatních obtížných variabilit (kanál atd.) Vyžaduje složité modely. Hloubkové neuronové sítě (DNN) nedávno prokázaly svůj potenciál, neboť populární x-vektor se naučil DNN. Zde se zaměřujeme na SID end-to-end, kde je systém optimalizován jako celek pro cílové úkoly. Přes některé první kroky v tomto směru je několik aspektů stále neprobádaných. Navrhujeme prozkoumat opakované přístupy, vhodné pro řešení časových signálů, stejně jako různé metody sdružování pro získání reprezentace s pevnou délkou ze vstupní sekvence řeči s proměnnou délkou, což je důležitá otázka v oboru. Také chceme prozkoumat různé chování mechanizmů pozornosti, které činí soustředění DNN na příslušné části vstupů a poskytují způsob, jak kvantifikovat, kolik důkazů bylo shromážděno o totožnosti řečníka a nejistotě získaného zastoupení, což je kritický problém při vytváření (Bayesovské) rozhodnutí v SID. Některé další přístupy, jako je použití syrového signálu (namísto funkcí) nebo jiné pokroky, které by mohly vzniknout, budou také zkoumány pro SID a související úkoly. Abychom dosáhli našich cílů, začneme od teorie, implementujeme navrhované přístupy a testujeme skutečné řečové údaje. Výstupy mají být přínosem jak pro vědeckou komunitu, tak pro zpracování řeči, jako je Phonexia nebo Nuance. Žadatelka Dr. Alicia Lozano-Diezová je vynikajícím výzkumným pracovníkem, který doktorskou práci vykonal. v Audias (Universidad Autonoma de Madrid, Španělsko), respektované výzkumné laboratoře. Hostitelská skupina Speech @ FIT z Vysoké školy technologické v Brně (Czechia) má špičkovou tradici výzkumu zpracování řeči. Proto očekáváme, že kombinace výzkumného pracovníka i hostitele podpoří kariéru výzkumného pracovníka a prospěje hostitelské skupině (a jejích evropských průmyslových partnerů).

Řešitelé

Lozano Díez Alicia, Ph.D. (UPGM FIT VUT) , hlavní řešitel
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel

Podpora

[img]
Tento projekt získal financování z programu Evropské unie pro výzkum a inovace Horizont 2020 na základě grantové dohody č. 843627.

Publikace

2021

LANDINI Federico Nicolás, LOZANO Díez Alicia, BURGET Lukáš, DIEZ Sánchez Mireia, SILNOVA Anna, ŽMOLÍKOVÁ Kateřina, GLEMBEK Ondřej, MATĚJKA Pavel, STAFYLAKIS Themos a BRUMMER Johan Nikolaas Langenhoven. BUT System Description for The Third DIHARD Speech Diarization Challenge. In: Proceedings available at Dihard Challenge Github. on-line by LDC and University of Pennsylvania, 2021, s. 1-5. Detail

2020

ALAM Jahangir, BOULIANNE Gilles, BURGET Lukáš, DAHMANE Mohamed, DIEZ Sánchez Mireia, GLEMBEK Ondřej, LALONDE Marc, LOZANO Díez Alicia, MATĚJKA Pavel, MIZERA Petr, MOŠNER Ladislav, NOISEUX Cédric, MONTEIRO Joao, NOVOTNÝ Ondřej, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna, SLAVÍČEK Josef, STAFYLAKIS Themos, ST-CHARLES Pierre-Luc, WANG Shuai a ZEINALI Hossein. Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge. In: Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Tokyo: International Speech Communication Association, 2020, s. 289-295. ISSN 2312-2846. Detail
BURGET Lukáš, GLEMBEK Ondřej, LOZANO Díez Alicia, MATĚJKA Pavel, NOVOTNÝ Ondřej, PLCHOT Oldřich, PULUGUNDLA Bhargav, ROHDIN Johan A., SILNOVA Anna a VESELÝ Karel. BUT System Description to SdSV Challenge 2020. In: Proceedings of Short-duration Speaker Verification Challenge 2020 Workshop. Shanghai, on-line event of Interspeech 2020 Conference, 2020, s. 1-5. Detail
LOZANO Díez Alicia, SILNOVA Anna, PULUGUNDLA Bhargav, ROHDIN Johan A., VESELÝ Karel, BURGET Lukáš, PLCHOT Oldřich, GLEMBEK Ondřej, NOVOTNÝ Ondřej a MATĚJKA Pavel. BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Shanghai: International Speech Communication Association, 2020, s. 761-765. ISSN 1990-9772. Detail