Detail projektu
Nové směry ve výzkumu a využití hlasových technologií
Období řešení: 1. 1. 2005 - 31. 12. 2007
Typ projektu: grant
Kód: GA102/05/0278
Agentura: Grantová agentura České republiky
Program:
hlasové technologie;automatické rozpoznání řeči;multi-lingualní systémy;verifikace a rozpoznání řečníka;rozpoznání spojité řeči;audiovizuální zpracování řeči;rozsáhlé řečové databáze;dialogové systémy;optimalizace prozodie
Projekt navazuje na předchozí úspěšný výzkum v oblasti zpracování řeči podporovaný GA ČR, zahájený komplexním projektem (1996 až 2001) a následovaný současným úkolem (2002-2004). Díky nim došlo k propojení všech předních českých pracovišť zabývajících se analýzou, rozpoznáváním a syntézou řeči a k rozvinutí spolupráce při řešení výzkumných úkolů, přesahujících zaměření jednotlivých dílčích týmů. Na této spolupráci je postaven i předkládaný projekt. Vychází z dosavadních výsledků v oblasti zpracování signálů, z existence vlastních rozsáhlých databází pro tvorbu akustických modelů použitelných v rozpoznávání i při syntéze, z propracovaných metod pravděpodobnostního modelování jazyka i ze zkušeností získaných návrhem funkčních prototypů. S ohledem na současné světové trendy bude hlavní pozornost zaměřena na rozvoj metod a algoritmů použitelných v distribuovaných a autonomních mobilních zařízeních, v rozpoznávacích systémech s velmi rozsáhlými slovníky, v hlasových syntezátorech pro interaktivní komunikační služby, v úlohách automatického přepisu zvukových nahrávek např. zpravodajství, rozhovorů, apod. Řešeno bude též multimodální zpracování řeči s podporou vizuální informace a rovněž otázky spojené s rozpoznáváním osob podle hlasu. Hlavní prioritou bude uplatnit všechny nové poznatky v prostředí češtiny s ohledem na její specifické potřeby.
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Grézl František, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Chalupníček Kamil, Ing. (UPGM FIT VUT) , spoluřešitel
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Matějka Pavel, Ing. (UREL FEKT VUT) , spoluřešitel
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Schwarz Petr, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
2007
- BURGET Lukáš, MATĚJKA Pavel, SCHWARZ Petr, GLEMBEK Ondřej a ČERNOCKÝ Jan. Analysis of feature extraction and channel compensation in GMM speaker recognition system. IEEE Transactions on Audio, Speech, and Language Processing, roč. 15, č. 7, 2007, s. 1979-1986. ISSN 1558-7916. Detail
- KARAFIÁT Martin, BURGET Lukáš, ČERNOCKÝ Jan a HAIN Thomas. Application of CMLLR in narrow band wide band adapted systems. In: Proc. INTERSPEECH 2007. Antwerpen: International Speech Communication Association, 2007, s. 4. ISSN 1990-9772. Detail
- MATĚJKA Pavel, BURGET Lukáš, GLEMBEK Ondřej, SCHWARZ Petr, HUBEIKA Valiantsina, FAPŠO Michal, MIKOLOV Tomáš a PLCHOT Oldřich. BUT system description for NIST LRE 2007. In: Proc. 2007 NIST Language Recognition Evaluation Workshop. Orlando: National Institute of Standards and Technology, 2007, s. 1-5. Detail
- SZŐKE Igor, BURGET Lukáš a KARAFIÁT Martin. Combination of Word and Phoneme Approach for Spoken Term Detection. Brno, 2007. Detail
- BRÜMMER Niko, BURGET Lukáš, ČERNOCKÝ Jan, GLEMBEK Ondřej, GRÉZL František, KARAFIÁT Martin, VAN Leeuwen David, MATĚJKA Pavel, SCHWARZ Petr a STRASHEIM Albert. Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006. IEEE Transactions on Audio, Speech, and Language Processing, roč. 15, č. 7, 2007, s. 2072-2084. ISSN 1558-7916. Detail
- HUBEIKA Valiantsina, SZŐKE Igor, BURGET Lukáš a ČERNOCKÝ Jan. Maximum Likelihood and Maximum Mutual Information Training in Gender and Age Recognition System. In: Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). Pilsen: Springer Verlag, 2007, s. 1-6. ISBN 978-3-540-74627-0. Detail
- GRÉZL František, KARAFIÁT Martin a ČERNOCKÝ Jan. Neural network topologies and bottle neck features in speech recognition. Brno, 2007. Detail
- MIKOLOV Tomáš, OPARIN Ilya, GLEMBEK Ondřej, BURGET Lukáš, KARAFIÁT Martin a ČERNOCKÝ Jan. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Univerzita Karlova, 2007. Detail
- GRÉZL František, KARAFIÁT Martin, KONTÁR Stanislav a ČERNOCKÝ Jan. Probabilistic and bottle-neck features for LVCSR of meetings. In: Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2007). Hononulu: IEEE Signal Processing Society, 2007, s. 757-760. ISBN 1-4244-0728-1. Detail
- ČERNOCKÝ Jan, SZŐKE Igor, FAPŠO Michal, KARAFIÁT Martin, BURGET Lukáš, KOPECKÝ Jiří, GRÉZL František, SCHWARZ Petr, GLEMBEK Ondřej, OPARIN Ilya, SMRŽ Pavel a MATĚJKA Pavel. Search in speech for public security and defense. In: Proc. IEEE Workshop on Signal Processing Applications for Public Security and Forensics, 2007 (SAFE '07). Washington D.C.: IEEE Signal Processing Society, 2007, s. 1-7. ISBN 1-4244-1226-9. Detail
- FAPŠO Michal. Search in speech records. In: Proc. 13th Conference STUDENT EEICT 2007. Brno: Fakulta elektrotechniky a komunikačních technologií VUT v Brně, 2007, s. 1-3. ISBN 978-80-214-3410-3. Detail
- ČERNOCKÝ Jan, BURGET Lukáš, SCHWARZ Petr, MATĚJKA Pavel, KARAFIÁT Martin, GLEMBEK Ondřej, KOPECKÝ Jiří, SZŐKE Igor, FAPŠO Michal, GRÉZL František, HUBEIKA Valiantsina a OPARIN Ilya. Search in speech, language identification and speaker recognition in Speech@FIT. In: Proc. 17th International Conference Radioelektronika, 2007. Brno: Ústav radioelektroniky FEKT VUT v Brně, 2007, s. 1-6. ISBN 978-80-214-3390-8. Detail
- SZŐKE Igor, FAPŠO Michal, KARAFIÁT Martin, BURGET Lukáš, GRÉZL František, SCHWARZ Petr, GLEMBEK Ondřej, MATĚJKA Pavel, KOPECKÝ Jiří a ČERNOCKÝ Jan. Spoken Term Detection System Based on a Combination of LVCSR and Phonetic Search. Brno, 2007. Detail
- MATĚJKA Pavel, BURGET Lukáš, SCHWARZ Petr, GLEMBEK Ondřej, KARAFIÁT Martin, GRÉZL František, ČERNOCKÝ Jan, VAN Leeuwen David, BRÜMMER Niko a STRASHEIM Albert. STBU system for the NIST 2006 speaker recognition evaluation. In: Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2007). Honolulu: IEEE Signal Processing Society, 2007, s. 221-224. ISBN 1-4244-0728-1. Detail
- GRÉZL František a ČERNOCKÝ Jan. TRAP-based Techniques for Recognition of Noisy Speech. In: Proc. 10th International Conference on Text Speech and Dialogue (TSD 2007). LNCS. Berlin: Springer Verlag, 2007, s. 270-277. ISBN 978-3-540-74627-0. Detail
2006
- AL-HAMES Marc, HAIN Thomas, ČERNOCKÝ Jan, SCHREIBER Sascha, POEL Mannes, MÜLLER Ronald, MARCEL Sebastien, VAN Leeuwen David, ODOBEZ Jean-Marc, BA Sileye, BOURLARD Herve, CARDINAUX Fabien, GATICA-PEREZ Daniel, JANIN Adam, MOTLÍČEK Petr, REITER Stephan, RENALS Steve, VAN Rest Jeroen, RIENKS Rutger, RIGOLL Gerhard, SMITH Kevin, THEAN Andrew a ZEMČÍK Pavel. Audio-Visual Processing in Meetings: Seven Questions and Current AMI Answers. In: Proc. 3nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI 2006). Washington D.C., 2006, s. 12. Detail
- ČERNOCKÝ Jan, MATĚJKA Pavel, BURGET Lukáš a SCHWARZ Petr. Automatic Language Identification System. In: Sborník příspěvků z odborného semináře "Nové technologie v radiokomunikacích". Brno: Univerzita Obrany, 2006, s. 1-6. Detail
- MATĚJKA Pavel, BURGET Lukáš, SCHWARZ Petr a ČERNOCKÝ Jan. Brno University of Technology System for NIST 2005 Language Recognition Evaluation. In: Proceedings of Odyssey 2006: The Speaker and Language Recognition Workshop. San Juan, 2006, s. 57-64. ISBN 1-4244-0472-X. Detail
- KOPECKÝ Jiří, SZŐKE Igor, FAPŠO Michal, KARAFIÁT Martin, BURGET Lukáš, OPARIN Ilya, SCHWARZ Petr, MATĚJKA Pavel, ČERNOCKÝ Jan a GLEMBEK Ondřej. BUT System for NIST STD 2006 - Arabic. In: Proc. NIST SPoken Term Detection Evaluation workshop (STD 2006). Washington D.C.: National Institute of Standards and Technology, 2006, s. 15. Detail
- SZŐKE Igor, FAPŠO Michal, KARAFIÁT Martin, BURGET Lukáš, GRÉZL František, SCHWARZ Petr, GLEMBEK Ondřej, MATĚJKA Pavel, KONTÁR Stanislav a ČERNOCKÝ Jan. BUT System for NIST STD 2006 - English. In: Proc. NIST SPoken Term Detection Evaluation workshop (STD 2006). Washington D.C.: National Institute of Standards and Technology, 2006, s. 26. Detail
- GLEMBEK Ondřej, KARAFIÁT Martin, BURGET Lukáš a ČERNOCKÝ Jan. Czech Speech Recognizer for Multiple Environments. In: Radioeletronika 2006. Bratislava, 2006, s. 1-4. Detail
- BURGET Lukáš, MATĚJKA Pavel a ČERNOCKÝ Jan. Discriminative Training Techniques for Acoustic Language Identification. In: Proceedings of ICASSP 2006. Toulouse, 2006, s. 209-212. Detail
- HUBEIKA Valiantsina. Estimation of Gender and Age from Recorded Speech. In: Proc. ACM Student Research competition 2006. Prague: České vysoké učení technické, 2006, s. 25-32. ISBN 80-01-03595-6. Detail
- SCHWARZ Petr, MATĚJKA Pavel a ČERNOCKÝ Jan. Hierarchical structures of neural networks for phoneme recognition. In: Proceedings of ICASSP 2006. Toulouse, 2006, s. 325-328. Detail
- BURGET Lukáš, ČERNOCKÝ Jan, FAPŠO Michal, KARAFIÁT Martin, MATĚJKA Pavel, SCHWARZ Petr, SMRŽ Pavel a SZŐKE Igor. Indexing and search methods for spoken documents. In: Proceedings of the Ninth International Conference on Text, Speech and Dialogue, TSD 2006. LNCS. Berlin: Springer Verlag, 2006, s. 351-358. ISSN 0302-9743. Detail
- FAPŠO Michal, SMRŽ Pavel, SCHWARZ Petr, SZŐKE Igor, SCHWARZ Milan, ČERNOCKÝ Jan, KARAFIÁT Martin a BURGET Lukáš. Information Retrieval from Spoken Documents. In: Proceedings of the Seventh International Conference on Intelligent Text Processing and Computational Linguistics (CICLING 2006). Mexico City: Springer Verlag, 2006, s. 410-416. ISBN 3-540-32205-1. Detail
- MATĚJKA Pavel, BURGET Lukáš, SCHWARZ Petr a ČERNOCKÝ Jan. NIST Language Recognition Evaluation 2005. In: Proceedings of NIST LRE 2005. Washington DC: National Institute of Standards and Technology, 2006, s. 1-37. Detail
- KONTÁR Stanislav. Parallel training of neural networks for speech recognition. In: Proc. 12th International Conference on Soft Computing MENDEL'06. Brno: Vysoké učení technické v Brně, 2006, s. 6. ISBN 80-214-3195-4. Detail
- KARAFIÁT Martin, GRÉZL František, SCHWARZ Petr, BURGET Lukáš a ČERNOCKÝ Jan. Robust heteroscedastic linear discriminant analysis and LCRC posterior features in large vocabulary continuous speech recognition. In: Proc. Fifth Slovenian and First International Language Technologies Conference. Ljubljana, 2006, s. 1-4. Detail
- KARAFIÁT Martin, GRÉZL František, SCHWARZ Petr, BURGET Lukáš a ČERNOCKÝ Jan. Robust heteroscedastic linear discriminant analysis and LCRC posterior features in meeting data recognition. In: Proc. 3nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI 2006). Lecture Notes in Computer Science, roč. 4299. Berlin: Springer Verlag, 2006, s. 275-284. ISBN 3-540-69267-3. Detail
- FAPŠO Michal, SCHWARZ Petr, SZŐKE Igor, SMRŽ Pavel, SCHWARZ Milan, ČERNOCKÝ Jan, KARAFIÁT Martin a BURGET Lukáš. Search Engine for Information Retrieval from Speech Records. In: Proceedings of the Third International Seminar on Computer Treatment of Slavic and East European Languages. Bratislava, 2006, s. 100-101. Detail
- MATĚJKA Pavel, SCHWARZ Petr, BURGET Lukáš a ČERNOCKÝ Jan. Use of anti-models to furher improve state-of-the-art PRLM language recognition system. In: Proceedings of ICASSP 2006. Toulouse, 2006, s. 197-200. Detail
2005
- SZŐKE Igor, SCHWARZ Petr, BURGET Lukáš, FAPŠO Michal, KARAFIÁT Martin, ČERNOCKÝ Jan a MATĚJKA Pavel. Comparison of Keyword Spotting Approaches for Informal Continuous Speech. In: Interspeech'2005 - Eurospeech - 9th European Conference on Speech Communication and Technology. Lisabon, 2005, s. 633-636. ISSN 1018-4074. Detail
- SZŐKE Igor, SCHWARZ Petr, MATĚJKA Pavel, BURGET Lukáš, FAPŠO Michal, KARAFIÁT Martin a ČERNOCKÝ Jan. Comparison of Keyword Spotting Approaches for Informal Continuous Speech. In: 2nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms. Edinburgh, 2005, s. 12. Detail
- SUMEC Stanislav a KADLEC Jaroslav. Event Editor - The Multi-Modal Annotation Tool. In: Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI). Edinburgh, 2005, s. 1. Detail
- STOLCKE Andreas, ANGUERA Xavier, BOAKYE Kofi, CETIN Özgür, GRÉZL František, JANIN Adam, MANDAL Arindam, PESKIN Barbara, WOOTERS Chuck a ZHENG Jing. Further Progress in Meeting Recognition: The ICSI-SRI Spring 2005 Speech-to-Text Evaluation System. In: Machine Learning for Multimodal Interaction, Second International Workshop, MLMI 2005, Edinburgh, UK, July 11-13, 2005, Revised Selected Papers. Lecture Notes in Computer Science 3869, Springer 2006. Edinburgh, Scotland: University of Edinburgh, 2005, s. 463-475. ISBN 978-3-540-32549-9. Detail
- ZHU Qifeng, CHEN Barry, GRÉZL František a MORGAN Nelson. Improved MLP Structures for Data-Driven Feature Extraction for ASR. In: Interspeech'2005 - Eurospeech - 9th European Conference on Speech Communication and Technology. Lisabon, 2005, s. 4. ISSN 1018-4074. Detail
- MOTLÍČEK Petr, BURGET Lukáš a ČERNOCKÝ Jan. Non-parametric Speaker Turn Segmentation of Meeting Data. In: Interspeech'2005 - Eurospeech - 9th European Conference on Speech Communication and Technology. Lisabon: International Speech Communication Association, 2005, s. 657-660. ISSN 1018-4074. Detail
- SZŐKE Igor, SCHWARZ Petr, BURGET Lukáš, KARAFIÁT Martin, MATĚJKA Pavel a ČERNOCKÝ Jan. Phoneme Based Acoustics Keyword Spotting in Informal Continuous Speech. Lecture Notes in Computer Science, roč. 2005, č. 3658, s. 8. ISSN 0302-9743. Detail
- MATĚJKA Pavel. Phoneme Recognition Tuning for Language Identification System. In: Proceedings of the 11th conference STUDENT EEICT 2005. Brno: Fakulta elektrotechniky a komunikačních technologií VUT v Brně, 2005, s. 658-653. ISBN 80-214-2890-2. Detail
- MATĚJKA Pavel, SCHWARZ Petr, ČERNOCKÝ Jan a CHYTIL Pavel. Phonotactic Language Identification. In: Proceedings of Radioelektronika 2005. Brno: Fakulta elektrotechniky a komunikačních technologií VUT v Brně, 2005, s. 140-143. ISBN 80-214-2904-6. Detail
- MATĚJKA Pavel, SCHWARZ Petr, ČERNOCKÝ Jan a CHYTIL Pavel. Phonotactic Language Identification using High Quality Phoneme Recognition. In: Interspeech'2005 - Eurospeech - 9th European Conference on Speech Communication and Technology. Lisbon: International Speech Communication Association, 2005, s. 2237-2240. ISSN 1018-4074. Detail
- FAPŠO Michal, SCHWARZ Petr, SZŐKE Igor, ČERNOCKÝ Jan, SMRŽ Pavel, BURGET Lukáš a KARAFIÁT Martin. Search Engine for Information Retrieval from Multi-modal Records. Edinburgh, 2005. Detail
- SZŐKE Igor. Smooth Pitch Tracker Based on Harmonic and Noise Model. In: STUDENT EEICT 2005. Brno: Fakulta informačních technologií VUT v Brně, 2005, s. 673-677. ISBN 80-214-2890-2. Detail
- GRÉZL František. Spectral plane investigation for probabilistic features for ASR. Edinburgh, 2005. Detail
- FAPŠO Michal, SMRŽ Pavel, SCHWARZ Petr, SZŐKE Igor, BURGET Lukáš, KARAFIÁT Martin a ČERNOCKÝ Jan. Systém pre efektívne vyhľadávanie v rečových databázach. In: Sborník databázové konference DATAKON 2005. Brno: Masarykova universita, 2005, s. 323-333. ISBN 80-210-3813-6. Detail
- HAIN Thomas, BURGET Lukáš, DINES John, GARAU Giulia, KARAFIÁT Martin, LINCOLN Mike, MCCOWAN Iain, MOORE Darren, WAN Vincent, ORDELMAN Roeland a RENALS Steve. The 2005 AMI System for the Transcription of Speech in Meetings. In: Machine Learning for Multimodal Interaction, Second International Workshop, MLMI 2005, Edinburgh, UK, July 11-13, 2005, Revised Selected Papers. Lecture Notes in Computer Science Volume 3869, Springer 2006. Edinburgh: University of Edinburgh, 2005, s. 450-462. ISBN 978-3-540-32549-9. Detail
- ASHBY Simone, BOURBAN Sebastien, CARLETTA Jean, FLYNN Mike, GUILLEMOT Mael, HAIN Thomas, KADLEC Jaroslav, KARAISKOS Vasilis, KRAAIJ Wessel, KRONENTHAL Melissa, LATHOUD Guillaume, LINCOLN Mike, LISOWSKA Agnes, MCCOWAN Iain, POST Wilfried, REIDSMA Dennis a WELLNER Pierre. The AMI Meeting Corpus. In: Measuring Behavior 2005 Proceedings Book. Wageningen, 2005, s. 4. Detail
- ASHBY Simone, BOURBAN Sebastien, CARLETTA Jean, FLYNN Mike, GUILLEMOT Mael, HAIN Thomas, KADLEC Jaroslav, KARAISKOS Vasilis, KRAAIJ Wessel, KRONENTHAL Melissa, LATHOUD Guillaume, LINCOLN Mike, LISOWSKA Agnes, MCCOWAN Iain, POST Wilfried, REIDSMA Dennis a WELLNER Pierre. The AMI Meeting Corpus: A Pre-Announcement. In: Workshop on Multimodal Interaction and Related Machine Learning Algorithms (MLMI). Edinburgh, 2005, s. 4. Detail
- HAIN Thomas, KARAFIÁT Martin, DINES John, MCCOWAN Iain, LINCOLN Mike, GARAU Giulia, WAN Vincent, ORDELMAN Roeland a RENALS Steve. The Development of the AMI System for the Transcription of Speech in Meetings. In: Machine Learning for Multimodal Interaction, Second International Workshop, MLMI 2005, Edinburgh, UK, July 11-13, 2005, Revised Selected Papers. Lecture Notes in Computer Science Volume 3869, Springer 2006. Edinburgh: University of Edinburgh, 2005, s. 344-356. ISBN 978-3-540-32549-9. Detail
- HAIN Thomas, KARAFIÁT Martin, GARAU Giulia, MOORE Darren, WAN Vincent, ORDELMAN Roeland a RENALS Steve. Transcription of Conference Room Meetings: an Investigation. In: Interspeech'2005 - Eurospeech - 9th European Conference on Speech Communication and Technology. Lisabon: International Speech Communication Association, 2005, s. 4. ISSN 1018-4074. Detail
- MATĚJKA Pavel, SCHWARZ Petr, ČERNOCKÝ Jan a CHYTIL Pavel. Tuning Phonotactic Language Identificaion System. Brno: Fakulta informačních technologií VUT v Brně, 2005. Detail
- KARAFIÁT Martin, BURGET Lukáš a ČERNOCKÝ Jan. Using Smoothed Heteroscedastic Linear Discriminant Analysis in Large Vocabulary Continuous Speech Recognition System. In: 2nd Joint Workshop on Multimodal Interaction and Related Machine Learning Algorithms. tento článek nebyl zařazen mezi Revised Selected Papers, nevyšel v LNCS 3869. Edinbourgh, Scotland: University of Edinburgh, 2005, s. 8. Detail
2008
- Fonémový rozpoznáváč založený na dlouhém časovém kontextu, software, 2008
Autoři: Schwarz Petr, Matějka Pavel, Burget Lukáš, Glembek Ondřej Detail
2005
- AMI Rozpoznávač spojité řeči s velkým slovníkem, software, 2005
Autoři: Burget Lukáš, Hain Thomas, Karafiát Martin Detail - Indexační a vyhledávací stroj pro multimodální data, software, 2005
Autoři: Černocký Jan, Fapšo Michal, Schwarz Petr, Szőke Igor Detail - STK Toolkit, software, 2005
Autoři: Burget Lukáš, Černocký Jan, Glembek Ondřej, Karafiát Martin, Kontár Stanislav, Schwarz Petr Detail - Systém pro automatickou identifikaci jazyka (LID), zavedená výroba, 2005
Autoři: Burget Lukáš, Černocký Jan, Matějka Pavel, Schwarz Petr Detail - Systém pro on-line detekci klíčových slov, software, 2005
Autoři: Černocký Jan, Matějka Pavel, Schwarz Petr, Szőke Igor Detail - Systém pro semiautomatickou kontrolu řečových anotací s webovým rozhraním, software, 2005
Autoři: Černocký Jan, Chalupníček Kamil, Kašpárek Tomáš Detail