Detail projektu

Jazyková paměť regionů České republiky. Metody strojového učení pro uchování, dokumentaci a prezentaci nářečí českého jazyka

Období řešení: 1. 3. 2023 – 31. 12. 2027

Typ projektu: grant

Kód: DH23P03OVV010

Agentura: Ministerstvo kultury ČR

Program: NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030

Název anglicky

Language memory of the regions of the Czech Republic. Machine learning methods for preservation, documentation and presentation of the dialects of the Czech language

Typ

grant

Klíčová slova

Český jazyk, dialekty, dialektologie, umělá inteligence, řečová a jazyková data,
automatická identifikace nářečí, automatické rozpoznávání řeči, interaktivní
mapy, jazyková paměť regionů

Abstrakt

Jazyk je základním spojovacím prvkem každého národa a jeho teritoriální nářečí
jsou důležitou součástí regionální identity. V moderním světě nářečí postupně
mizí, jejich variabilita se zmenšuje a postupně se asimilují do jazyka
představovaného mainstreamovými médii a internetem. Kvůli značným nákladům na
pořizování a anotaci trénovacích jazykových dat mají nářečí prakticky nulovou
podporu v moderních technologiích umělé inteligence (AI) a strojového učení (ML)
reprezentovaných především automatickým rozpoznáváním řeči (ASR). V České
republice se studiu nářečí věnuje dialektologické oddělení ÚJČ AV ČR, které je
jediným akademickým pracovištěm systematicky se zabývajícím výzkumem nespisovných
útvarů českého národního jazyka. Toto pracoviště ale postrádá jakékoliv moderní
technologie pro automatické zpracování, uchování, dokumentaci a prezentaci
nářečí. Výstupy dialektologického oddělení jsou navíc dostupné především odborné
veřejnosti, chybí ale moderní interaktivní webové aplikace nebo služby využitelné
širokou veřejností. Projekt, který je navržený specialisty na ASR (VUT),
dialektology (ÚJČ) a odborníky na interaktivní mapové zobrazování (UPOL), si
klade za cíl adaptovat existující technologie a vyvinout nové postupy pro
automatické zpracování, uchování, dokumentaci a prezentaci nářečí českého jazyka.
Nejprve bude zpracována podrobná metodika pro převod strukturovaných znalostí
z dialektologie do strojového učení, kde je dominantní práce s daty. Stávající
Archiv zvukových záznamů nářečních promluv (budovaný v ÚJČ od r. 1952 do
současnosti a obsahující nahrávky s celkovou délkou záznamu přes 750 hodin) bude
doplněn metadaty a bude připraven pro strojové učení. Zároveň jako prerekvizitu
vyvineme software pro detekci dialektu na základě audionahrávky.

Řešitelé

Karafiát Martin, Ing., Ph.D. (UPGM) – hlavní řešitel
Kocour Martin, Ing. (UPGM)
Kotolan Martin (DFIT-OIP)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Sedláček Šimon, Ing. (UPGM)
Yusuf Bolaji (UPGM)
Žižka Josef, Ing. (UPGM)

Publikace

2024

BENEŠ, K.; KOCOUR, M.; BURGET, L. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11276-11280. ISBN: 979-8-3503-4485-1. Detail

2023

MATĚJKA, P.; SILNOVA, A.; SLAVÍČEK, J.; MOŠNER, L.; PLCHOT, O.; KLČO, M.; PENG, J.; STAFYLAKIS, T.; BURGET, L. Description and Analysis of ABC Submission to NIST LRE 2022. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 511-515. ISSN: 1990-9772. Detail

Produkty

2025

Metodika pro převod strukturovaných znalostí z oboru dialektologie do strojového učení, metodika certifikovaná uplatněná, 2025
Autoři: ŠIMEČKOVÁ, M.; STUPŇÁNEK, B.; KARAFIÁT, M.; VONDRÁKOVÁ, A.; VOŽENÍLEK, V.; NÉTEK, R.

2024

Automatický detektor dialektu na základě audionahrávky, software, 2024
Autoři: PLCHOT, O.; ODEHNAL, O.; KARAFIÁT, M.; ŽIŽKA, J.; ŠIMEČKOVÁ, M.