Detail práce

Robustní rozpoznávání mluvčího pomocí neuronových sítí

Diplomová práce Student: Profant Ján Akademický rok: 2018/2019 Vedoucí: Matějka Pavel, Ing., Ph.D.
Název anglicky
Robust Speaker Verification with Deep Neural Networks
Jazyk práce
český
Abstrakt

Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.

Klíčová slova

verifikace mluvčího, rozpoznávání mluvčího, neurónové sítě, x-vector, i-vector

Ústav
Studijní program
Informační technologie, obor Počítačová grafika a multimédia
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
18. června 2019
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. What were the most important things that made x-vectors work so well compared to other approaches/architectures for DNN embeddings?
  2. Do you think more end-to-end approaches with joint training of embedding extractor and feature extractor or the backend will beat the x-vector approach in future?
  3. Regarding Section 5.3.2. If K is very large, the clusters will be formed by very few segments and their representative x-vector could be quite random. Doesn't this mean that one of the cluster may match the enroll speaker very well just by chance? Could a better approach be derived?
  4. S jakými sítěmi jste experimentoval? Nemělo by smysl trénovat rovnou klasifikátor?  
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Čadík Martin, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Holub Jan, prof. Ing., Ph.D. (FIT ČVUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Polčák Libor, Ing., Ph.D. (UIFS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
Citace
PROFANT, Ján. Robustní rozpoznávání mluvčího pomocí neuronových sítí. Brno, 2019. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-18. Vedoucí práce Matějka Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/21835/
BibTeX
@mastersthesis{FITMT21835,
    author = "J\'{a}n Profant",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Robustn\'{i} rozpozn\'{a}v\'{a}n\'{i} mluv\v{c}\'{i}ho pomoc\'{i} neuronov\'{y}ch s\'{i}t\'{i}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/21835/"
}
Nahoru