Speaker Verification without Feature Extraction

Název česky

Verifikace osob podle hlasu bez extrakce příznaků

Jazyk práce

anglický

Abstrakt

Verifikácia osôb je oblasť, ktorá sa stále modernizuje, zlepšuje a snaží sa vyhovieť požiadavkám, ktoré sa na ňu kladú vo oblastiach využitia ako sú autorizačné systmémy, forenzné analýzy, atď. Vylepšenia sa uskutočňujú vďaka pokrom v hlbokom učení, tvorením nových trénovacích a testovacích dátovych sad a rôznych súťaží vo verifikácií osôb a workshopov. V tejto práci preskúmame modely pre verifikáciu osôb bez extrakcie príznakov. Používanie nespracovaných zvukových stôp ako vstupy modelov zjednodušuje spracovávanie vstpu a teda znižujú sa výpočetné a pamäťové požiadavky a redukuje sa počet hyperparametrov potrebných pre tvorbu príznakov z nahrávok, ktoré ovplivňujú výsledky. Momentálne modely bez extrakcie príznakov nedosahujú výsledky modelov s extrakciou príznakov. Na základných modeloch budeme experimentovať s modernými technikamy a budeme sa snažiť zlepšiť presnosť modelov. Experimenty s modernými technikamy značne zlepšili výsledky základných modelov ale stále sme nedosiahli výsledky vylepšeného modelu s extrakciou príznakov. Zlepšenie je ale dostatočné nato aby sme vytovrili fúziu so s týmto modelom. Záverom diskutujeme dosiahnuté výsledky a navrhujeme zlepšenia na základe týchto výsledkov.

Klíčová slova

verifikácia osôb, bez extrakcie príznakov, obtisk rečníka, residuálne siete, RawNet, VoxCeleb1, VoxCeleb2, VoxSRC, škálovenie máp príznakov, SincNet, Aditívna Uhlová Okrajová funkcia, fúzia

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie a umělá inteligence, specializace Zpracování zvuku, řeči a přirozeného jazyka

Soubory

Stav

obhájeno, hodnocení A

Obhajoba

24. června 2021

Oponent

Rohdin Johan A., Dr.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

On p6 you say that 2D convolutions such as in ResNet are ideal when the input is a feature and that 1D convolutions are ideal for processing raw waveforms. But what about having first one or more 1D convolutions that extracts "features" from the raw waveform and then continue to process them with 2D convolutions?

What kind of patterns do you think the RawNet can extract from the waveform that are missing in standard features such as fbank or MFCC?

Myslíte, že by druhá konvoluční vrstva mohla nahradit využitý high-pass filtr (HPF)?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bařina David, Ing., Ph.D. (UPGM FIT VUT), člen
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Zemčík Pavel, prof. Dr. Ing. (UPGM FIT VUT), člen

Citace

LUKÁČ, Peter. Speaker Verification without Feature Extraction. Brno, 2021. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-06-24. Vedoucí práce Mošner Ladislav. Dostupné z: https://www.fit.vut.cz/study/thesis/23746/

BibTeX

@mastersthesis{FITMT23746,
    author = "Peter Luk\'{a}\v{c}",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Speaker Verification without Feature Extraction",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/23746/"
}