Detail publikace
Deriving Spectro-temporal Properties of Hearing from Speech Data
Li Ruizhi (JHU)
Sell Gregory (JHU)
Heřmanský Hynek, prof. Ing., Dr.Eng. (JHU)
Lidské slyšení a lidská řeč jsou vnitřně svázány, protože vlastnosti řeči se téměř jistě vyvinuly, aby byly slyšet lidskými ušima. V důsledku tohoto spojení se ukázalo, že určité vlastnosti lidského sluchu jsou napodobovány v systémech založených na údajích, které jsou vyškoleny k porozumění lidské řeči. V tomto článku dále zkoumáme tento jev měřením spektro-časových odezev datových filtrů v front-end konvoluční vrstvě hluboké sítě vyškolené ke klasifikaci fonémů čisté řeči. Analýzy ukazují, že filtry skutečně vykazují spektro-časové reakce podobné těm, které byly měřeny u savců, a také, že filtry vykazují další úroveň frekvenční selektivity, podobnou zpracovatelskému potrubí předpokládanému v artikulačním indexu.
@INPROCEEDINGS{FITPUB12097, author = "Francois Antoine Lucas Yang Ondel and Ruizhi Li and Gregory Sell and Hynek He\v{r}mansk\'{y}", title = "Deriving Spectro-temporal Properties of Hearing from Speech Data", pages = "411--415", booktitle = "Proceedings of ICASSP", year = 2019, location = "Brighton, GB", publisher = "IEEE Signal Processing Society", ISBN = "978-1-5386-4658-8", doi = "10.1109/ICASSP.2019.8682787", language = "english", url = "https://www.fit.vut.cz/research/publication/12097" }