SW3 ASR pro akusticky náročná prostředí

Název anglicky

SW3 ASR for demanding acoustic conditions

Typ

software

Licence

zatím neuvolněno

Autoři

Šmídl Luboš, Ing., Ph.D. (ZČU v Plzni)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Švec Jan, Ing., Ph.D. (ZČU v Plzni)
Lehečka Jan, Ing., Ph.D. (ZČU v Plzni)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Brukner Jan, Ing. (UPGM FIT VUT)

Klíčová slova

ASR; rozpoznávání řeči; docker

Popis

Systém pro rozpoznávání řeči (ASR) asijského jazyka založený na moderních přístupech pro trénování. WAV2VEC model byl natrénován na obecných nahrávkách a dotrénován na vietnamských nahrávkách, které byly dále rozšířeny o množení (augmentace) dat pro náročné akustické podmínky. Tímto bylo dosaženo žádané robustnosti. Součástí výsledku je model na odstranění šumu z nahrávky. Výsledkem je aplikace využívající "Docker" kontejner a spustitelná z příkazové řádky (command line) na standardní distribuci Linuxu nebo Windows.

Umístění

Pro stažení kontaktujte: https://www.fit.vut.cz/person/karafiat/ nebo http://www.kky.zcu.cz/en/people/smidl-lubos

Licence

Pro informace o licenčních podmínkách prosím kontaktujte: Ing. Martina Kocmanová, Výzkumné centrum informačních technologií, Fakulta informačních technologií VUT v Brně, Božetěchova 2, 612 66 Brno, tel. 541 141 466.

Podpora

Podpořeno z projektu Ministerstva vnitra České republiky Robustní zpracování nahrávek pro operativu a bezpečnost (ROZKAZ), č. VJ01010108 [img]

Projekty

Robustní zpracování nahrávek pro operativu a bezpečnost (VJ01010108)

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií FIT VUT v Brně (UPGM FIT VUT)
Západočeská univerzita v Plzni (ZČU v Plzni)