Detail publikace
Deriving Spectro-temporal Properties of Hearing from Speech Data
perception, spectro-temporal, auditory, deeplearning
Lidské slyšení a lidská řeč jsou vnitřně svázány, protože vlastnosti řeči se téměř jistě vyvinuly, aby byly slyšet lidskými ušima. V důsledku tohoto spojení se ukázalo, že určité vlastnosti lidského sluchu jsou napodobovány v systémech založených na údajích, které jsou vyškoleny k porozumění lidské řeči. V tomto článku dále zkoumáme tento jev měřením spektro-časových odezev datových filtrů v front-end konvoluční vrstvě hluboké sítě vyškolené ke klasifikaci fonémů čisté řeči. Analýzy ukazují, že filtry skutečně vykazují spektro-časové reakce podobné těm, které byly měřeny u savců, a také, že filtry vykazují další úroveň frekvenční selektivity, podobnou zpracovatelskému potrubí předpokládanému v artikulačním indexu.
@inproceedings{BUT160004,
author="ONDEL YANG, L. and LI, R. and SELL, G. and HEŘMANSKÝ, H.",
title="Deriving Spectro-temporal Properties of Hearing from Speech Data",
booktitle="Proceedings of ICASSP",
year="2019",
pages="411--415",
publisher="IEEE Signal Processing Society",
address="Brighton",
doi="10.1109/ICASSP.2019.8682787",
isbn="978-1-5386-4658-8",
url="https://ieeexplore.ieee.org/document/8682787"
}