Audiowizualne rozpoznawanie mowy
Interfejsy głosowe stanowią coraz bardziej popularny sposób komunikacji użytkownika z komputerem. W przypadku rozpoznawania mowy w warunkach mobilnych, na przykład wewnątrz pojazdu, istotnym problemem są zakłócenia akustyczne, które obniżają skuteczność systemu. Jednym ze sposobów poprawy jakości rozpoznawania jest dołączenie informacji wizyjnej w postaci obrazu ust. W projekcie MODALITY badane są innowacyjne techniki wspomagania rozpoznawania mowy poprzez analizę sygnałów wizyjnych:
- nagrania multimodalnej audiowizualnej bazy sygnałów mowy dla języka angielskiego;
- analiza sygnałów z kamer o wysokim współczynniku klatek na sekundę (ponad 100 fps);
- wykorzystanie kamer stereo, termowizyjnych oraz Time-of-Flight;
- opracowanie metod parametryzacji obrazu na potrzeby rozpoznawania mowy;
- ocena skuteczności audiowizualnego rozpoznawania mowy w oparciu o dodatkowe modalności.
Fot. Bartosz Kunka