Detail práce
Robustní rozpoznávání mluvčího pomocí neuronových sítí
Tématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.
verifikace mluvčího, rozpoznávání mluvčího, neurónové sítě, x-vector, i-vector
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
- What were the most important things that made x-vectors work so well compared to other approaches/architectures for DNN embeddings?
- Do you think more end-to-end approaches with joint training of embedding extractor and feature extractor or the backend will beat the x-vector approach in future?
- Regarding Section 5.3.2. If K is very large, the clusters will be formed by very few segments and their representative x-vector could be quite random. Doesn't this mean that one of the cluster may match the enroll speaker very well just by chance? Could a better approach be derived?
- S jakými sítěmi jste experimentoval? Nemělo by smysl trénovat rovnou klasifikátor?
Čadík Martin, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Holub Jan, prof. Ing., Ph.D. (FIT ČVUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Polčák Libor, Ing., Ph.D. (UIFS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
@mastersthesis{FITMT21835, author = "J\'{a}n Profant", type = "Diplomov\'{a} pr\'{a}ce", title = "Robustn\'{i} rozpozn\'{a}v\'{a}n\'{i} mluv\v{c}\'{i}ho pomoc\'{i} neuronov\'{y}ch s\'{i}t\'{i}", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2019, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/21835/" }