KSM - Badania naukowe

Badania naukowe

Prace badawcze prowadzone w Katedrze Systemów Multimedialnych obejmują szeroki zakres zagadnień związanych z dźwiękiem, obrazem, technologiami multimedialnymi, interfejsami multimodalnymi i wieloma innymi zagadnieniami. Rozwiązania opracowane w Katedrze były prezentowane na wielu krajowych i zagranicznych wystawach, zdobywając liczne nagrody i wyróżnienia. Wiele rozwiązań uzyskało ochronę patentową w Polsce i na świecie. Wyniki prac badawczych są publikowane w czasopismach oraz prezentowane podczas konferencji naukowych. Publikacje, referaty konferencyjne i patenty powstałe w Katedrze są odnotowane w bazie bibliograficznej .

Najważniejsze tematy prac badawczych aktualnie prowadzonych w Katedrze zestawiono poniżej.

Technologia studyjna:
- rejestracja dźwięku i obrazu
- przetwarzanie sygnałów
- montaż i miksowanie nagrań
- post-produkcja dźwięku i obrazu
- systemy wirtualnej rzeczywistości
- wielokanałowe systemy dźwięku
Analiza i przetwarzanie sygnałów fonicznych:
- rekonstruowanie nagrań
- rozpoznawanie mowy
- synteza mowy
- algorytmy poprawy jakości i zrozumiałości mowy
- filtracja przestrzenna, lokalizacja źródeł dźwięku
- wspomaganie osób z zaburzeniami słuchu i mowy
Analiza i przetwarzanie sygnałów wizyjnych:
- rozpoznawanie obiektów w obrazie
- wykrywanie i śledzenie obiektów ruchomych
- wizyjne rozpoznawanie mowy
- analiza obrazu z kamer ToF, termowizyjnych i podczerwieni
- animacja komputerowa postaci
- systemy przechwytywania ruchu (motion capture)
Interfejsy multimodalne człowiek-maszyna:
- interfejsy dla osób niepełnosprawnych
- sterowanie komputerem za pomocą śledzenia wzroku
- sterowanie za pomocą gestów
- sterowanie głosowe
- analiza fal mózgowych
Technologie bezpieczeństwa:
- biometryczne rozpoznawanie osób
- weryfikacja podpisu
- wykrywanie niebezpiecznych zdarzeń w obrazie z kamery
- wykrywanie zdarzeń dźwiękowych
Systemy teleinformatyczne:
- monitorowanie środowiska, mapy hałasu
- multimedialne systemy telemedyczne – diagnostyka słuchu i wzroku
- systemy monitorowania dróg i sterowania ruchem drogowym
Implementacje algorytmów przetwarzania danych multimedialnych
- procesory sygnałowe (DSP)
- moduły uruchomieniowe i systemy wbudowane (Intel Galileo, itp.)
- platformy do obliczeń równoległych (np. GPU)
- obliczenia superkomputerowe
Multimedialne zastosowania metod uczenia maszynowego
- algorytmy sztucznej inteligencji
- rozpoznawanie i klasyfikacja dźwięków i obrazów
Akustyka muzyczna
- rozpoznawanie dźwięków i fraz muzycznych
- ocena testów subiektywnych
- testy odsłuchowe
- ocena jakości głosów śpiewaczych
Technika nagłaśniania:
- projektowanie akustyczne pomieszczeń
- projektowanie systemów nagłośnieniowych
- metody adaptacji akustycznej pomieszczeń
- pomiary akustyczne pomieszczeń
Technologie mobilne:
- diagnostyka i monitorowanie stanu zdrowia
- nowe formy komunikowania się osób

Projekty badawcze

Katedra Systemów Multimedialnych bierze udział w wielu projektach badawczych, zarówno europejskich, jak i krajowych, finansowanych przez Ministerstwo Nauki i Szkolnictwa Wyższego oraz inne instytucje naukowe.

Projekty krajowe - aktualnie realizowane

ADMEDVOICE - Adaptacyjny system inteligentnego przetwarzania mowy lekarzy wraz ze strukturalizacją wyników badań i wspomaganiem procesu terapeutycznego.
Projekt realizowany w ramach programu INFOSTRATEG 4 (numer projektu: INFOSTRATEG4/0003/2022). Celem projektu jest opracowanie i wdrożenie rozwiązania, przy użyciu którego, lekarze przywołują głosowo dostępne wyniki badań diagnostycznych i parametrów klinicznych pacjentów, wypełniają karty choroby w toku wywiadu lekarskiego, stosownie do potrzeb tworzą opisy radiologiczne i ordynują leczenie. Przewidziany do opracowania system automatycznie generuje szablony do ich wypełniania, w tym wywiad lekarski, opisy obrazów radiologicznych, które będą mogły być edytowane głosowo, a ponadto umożliwi dyktowanie skierowań na dodatkowe badania, recept i zwolnień lekarskich. Chmurowy system rozpoznawania mowy zostanie zbudowany w oparciu o zbudowany korpus mowy polskiej poszerzony o słownik terminów medycznych oraz handlowych nazw leków, z przeznaczeniem do wykorzystania przede wszystkim przez lekarzy różnych specjalności, w tym radiologów, chirurgów, lekarzy pracujących w szpitalnych oddziałach ratunkowych, specjalistów udzielających porad medycznych. Wariant rozwiązania rozbudowany o komunikację dwukierunkową, opartą zarówno na rozpoznawaniu mowy, jak i na jej syntezie, będzie mógł być wykorzystywany w sytuacjach, kiedy lekarz nie może obsługiwać ręcznie edytora tekstowego. Zakłada się zbudowanie korpusu nagrań w oparciu o nagrania mowy artykułowanej w typowych warunkach akustycznych gabinetów lekarskich, a ponadto w maskach chirurgicznych, na salach operacyjnych, a także w warunkach utrudniających skuteczne rozpoznawanie mowy, tzn. w obecności pogłosu, zakłóceń oraz mowy równoczesnej. W szczególności dla potrzeb wykorzystywania systemu na salach zabiegowych i klinicznych oddziałach ratunkowych wykorzystywane będzie skonstruowane sprzętowe rozwiązanie do akwizycji sygnału mowy. Dodatkowym zastosowaniem systemu będzie przeszukiwanie baz i repozytoriów medycznych, stąd repozytoria zostaną uzupełnione o nazwy schorzeń i niektórych składników leków oraz o nazwy handlowe popularnych produktów medycznych. Szczególna uwaga zostanie zwrócona na wytrenowanie systemu dla rozpoznawania skojarzonych ze sobą zestawów słów, eliminowania powtarzających się terminów błędnych, dyktowania wymiarów zmian radiologicznych, głosowego korygowania wpisów w przywoływanych szablonach, możliwości odczytywania wpisów przy użyciu mowy syntetycznej, poczynając od zaznaczanych pozycji kursora i wymiany istniejących fragmentów na nowe, podyktowane głosem.

INTERKOM - Innowacyjny system interkomowy.
Projekt prowadzony przez firmę Ambient System Sp. z o.o.
Celem projektu jest opracowanie i przygotowanie do wdrożenia przez partnera przemysłowego (Ambient System Sp. z o.o.), nowoczesnego systemu interkomowego o wielowarstwowej architekturze wraz z algorytmami biometrii głosowej oraz wykrywania dźwięków znamionujących sytuacje zagrożenia wykorzystującymi sztuczną inteligencję. Opracowane rozwiązanie będzie stanowiło propozycję zastąpienia tradycyjnego, pasywnego systemu interkomowego innowacyjnym o istotnie rozbudowanych funkcjach, co pozwoli Wnioskodawcy odpowiedzieć na rosnące zapotrzebowanie rynkowe w zakresie wykorzystywania w systemach interkomowych bezpiecznych rozwiązań chmurowych oraz technologii z obszaru sztucznej inteligencji. Rezultat Projektu będzie wynikiem prac badawczo-rozwojowych skupiających się na opracowaniu algorytmów biometrii głosowej oraz wykrywania dźwięków znamionujących sytuacje zagrożenia, które zostaną zintegrowane z opracowaną wielopoziomową architekturą systemu, wykorzystującą podejście fog/cloud computing. Prace badawczo-rozwojowe zostaną zakończone przeprowadzeniem testów potwierdzających spełnienie założeń projektowych funkcjonowania systemu interkomowego w warunkach operacyjnych.

Projekty europejskie - zakończone

COPCAMS - COgnitive & Perceptive CAMeraS - projekt w ramach platformy ARTEMIS, grant nr 332913, realizowany 2013-04-01 - 2016-09-30.
Konsorcjum projektu składa się z 21 partnerów z siedmiu krajów europejskich. Celem projektu jest opracowanie zintegrowanych systemów analizy obrazu z kamer, z wykorzystaniem programowalnych, wielordzeniowych platform obliczeniowych. Umożliwi to zastosowanie opracowanych rozwiązań w ramach inteligentnych kamer (smart cameras), cechujących się dużą mocą obliczeniową i niskim zużyciem energii. System analizy obrazu jest zdecentralizowany: pojedyncze kamery prowadzą analizę obrazu, systemy agregacji danych zbierają wyniki analizy w pewnej liczby kamer i podejmują decyzję o istotności tych wyników i o potrzebie ich przekazania na wyższy poziom systemu. Strona projektu.

ADDPRIV - Automatic Data relevancy Discrimination for a PRIVacy-sensitive video surveillance) - projekt finansowany przez EU w ramach platformy CORDIS, FP7-SECURITY, grant nr 261653, realizowany 2011-02-01 - 2014-03-31.
Celem projektu jest poprawa bezpieczeństwa publicznego przez zapewnienie prawa prywatności osobom objętym monitoringiem. Zadanie to, realizowane jest poprzez rozszerzenie funkcjonalności istniejących systemów monitoringu o automatyczną dyskryminację nieistotnych nagrań. Projekt ADDPRIV związany jest z analizą nagrań pochodzących z systemów monitoringu wizyjnego. Poprzez zastosowanie automatycznych metod, realizowane jest ich oznaczanie jako istotnych, bądź nieistotnych z punktu widzenia bezpieczeństwa. To z kolei, pozwala ograniczyć przestrzeń dyskową konieczną do przechowywania rejestracji, co tym samym prowadzi do zwiększenia prywatności osób znajdujących się na obszarze objętym monitoringiem. Więcej informacji o projekcie.

PERFORM - A sophisticated multi-parametric system for the continuous effective assessment and monitoring of motor status in parkinson’s disease and other neurodegenerative diseases. Projekt finansowany przez EU w ramach FP7, grant nr 215952. Zintegrowany projekt dziedziny telemedycyny, koordynowany przez firmę Siemens. Katedra Systemów Multimedialnych ma za zadanie opracowanie narzędzi teleinformatycznych do zdalnego monitorowania pacjentów cierpiących na choroby neurodegeneratywne (głównie Parkinsonizm).

INDECT - Intelligent information system supporting observation, searching and detection for security of citizens in urban environment - projekt finansowany przez EU w ramach FP7-2007, grant nr 218086, realizowany 2009-01-01 - 2014-06-30.
Rozwinięcie projektu SECURITY na skalę europejską, z udziałem policji polskiej, niemieckiej i europejskiej, czołowych uczelni technicznych polskich i europejskich. PG jest postulatorem i głównym wykonawcą tego projektu, który został przyznany we wrześniu 2007 r., z budżetem rzędu kilkunastu mln. euro (fundatorem badań jest Komisja Europejska). Jest to pierwszy zintegrowany projekt europejski z dziedziny technologii bezpieczeństwa, przygotowany i koordynowany w Polsce. Strona projektu.

PRESTOSPACE - Preservation towards storage and access, Standardised Practices for Audiovisual Contents in Europe - projekt finansowany przez Unię Europejską w ramach 6. Programu Ramowego UE, grant nr FP6-IST-707336.
W Politechnice Gdańskiej opracowano narzędzia do rekonstrukcji materiału archiwalnego - starych nagrań i filmów. Repozytoria europejskie zawierają blisko 200 mln. godzin tego typu materiału, którego część będzie można ochronić od dalszej deprecjacji, dzięki wykorzystaniu opracowanych narzędzi. Strona projektu.

DESYME - Development System for Mobile Services - projekt finansowany przez EU w ramach platformy CELTIC, grant nr CP1-042.
Zakończony w 2007 r. projekt międzynarodowy, którego wyniki otwierają możliwość samodzielnego projektowania i programowania różnego rodzaju usług w sieciach komórkowych (wcześniej była to domena operatorów sieci komórkowych).

Projekty badawcze krajowe - zakończone

INFOLIGHT - Chmurowa platforma oświetleniowa dla inteligentnych miast.
Projekt finansowany przez Narodowe Centrum Badań i Rozwoju w ramach umowy POIR.04.01.04-00-0075/19, realizowany 2020-04-01 - 2023-06-29.
Celem projektu jest zaproponowanie wieloelementowego systemu inteligentnych lamp z funkcjami IoT i dostępem do technologii chmurowej, przebadanie optymalnego sposobu pozyskiwania danych z sensorów środowiskowych, ich przetwarzania, wymiany danych między węzłami sieci fog computing, wnioskowania i modyfikacji charakterystyk świecenia zgodnie z wypracowanymi w projekcie regułami. Partnerzy projektu wykonują warstwy sprzętową i komunikacyjną, zaś zespół Politechniki Gdańskiej opracowuje sposoby wstępnego przetwarzania i synchronizacji danych z sensorów, obliczeń w chmurze, wnioskowania odnośnie doboru optymalnych dla zmiennych, monitorowanych przez lampę, warunków widoczności i światła. PG zrealizuje także badania wpływu światła (natężenia i temperatury barwowej) na człowieka, w tym zagadnienia zdolności rozpoznawania przedmiotów i obiektów na drodze przez kierowców, szybkość reakcji, samopoczucie, cykl dzienny organizmu, inne funkcje życiowe. Algorytmy analizy i wnioskowania utworzą pulę usług podstawowych, łączonych za pomocą reguł decyzyjnych w usługi złożone, oferowane użytkownikom końcowym jako gotowe rozwiązania i komponenty do wykonania własnych aplikacji smart city. Przewidziane są funkcje integracji z zewnętrznymi źródłami danych i infrastrukturą inteligentnych miast, w tym także pojazdów za pomocą protokołu V2X (vehicle-to-everything). W wyniku realizacji projektu zespół Politechniki Gdańskiej zacieśni współpracę z firmami REVA i Siled, kluczowymi wykonawcami technologii IoT i oświetlenia. Zespół wzmocni kompetencje w dziedzinach programowania aplikacji dla Internetu Rzeczy, algorytmach analizy strumieni danych, fuzji danych i wnioskowania.

INSPACE - Innowacyjny system rozgłoszeniowo-komunikacyjny. Projekt prowadzony przez firmę Ambient System sp. z o.o. w ramach POIR, nr POIR.01.01.01-00-0089/17-00, realizowany 2018-2020.
Główną rolą tradycyjnego Dźwiękowego Systemu Ostrzegawczego (DSO) jest wsparcie skutecznej ewakuacji ludzi z budynku podczas pożaru, alarmu lub innego zagrożenia poprzez rozgłaszanie sygnałów ostrzegawczych i komunikatów głosowych. Systemy typu DSO są instalowane w budynkach, w których może przebywać duża liczba osób nieznających ich szczegółowej topografii. Kluczowym parametrem stanowiącym o skuteczności systemu jest zrozumiałość komunikatu. Stopień w jakim nadawany komunikat jest zrozumiały jest mierzony przy pomocy wskaźnika STI (Speech Transmission Index – STI), co pozwala na weryfikację stopnia zrozumiałości mowy w każdym obiekcie. Wymagane ustawowo nagłaśnianie dużych obiektów (Dz.U.10.109.719) wiąże się z problemami akustycznymi, efektem czego jest brak zrozumiałości komunikatów np. na peronach kolejowych czy lotniskach. Komunikaty, pomimo iż są słyszalne, pozostają mało zrozumiałe (niski poziom STI), co jest szczególnie istotne przy zagrożeniu bezpieczeństwa przebywających w obiektach osób. W wielu obiektach są trudności ze spełnieniem min. warunków bezpieczeństwa określanych dla DSO (STI>0,5) – co często powoduje konieczność poniesienia wysokich nakładów na zmiany architektoniczne i budowlane adaptacje akustyczne. Opracowanie innowacyjnego systemu rozgłoszeniowo-komunikacyjnego odpowie na powszechne problemy związane ze zrozumiałością komunikatów głosowych i brakiem odpowiednich technologii cyfrowo-akustycznych na rynku. Spółka, mająca wieloletnie doświadczenie w zakresie wdrażania systemów DSO, dostrzegła istotne możliwości rozwoju biznesowego.

BIOPUAP - Chmurowy system uwierzytelniania biometrycznego. Projekt nr POIR.01.01.01-0092/19 w ramach Programu Operacyjnego Inteligentny Rozwój, prowadzony przez PKO BP SA, realizowany 2020-01-10 - 2022-06-30.
Głównym celem projektu jest umożliwienie klientom PKO BP korzystania z multimodalnej biometrii w oddziałach Banku, a także w kanałach mobilnych. W wyniku realizacji projektu powstaną rozwiązania umożliwiające klientowi pozostawienie swoich próbek biometrycznych w oddziale stacjonarnym Banku lub kanale mobilnym. Daje to możliwość weryfikacji tożsamości klienta bez posiadania przez niego przy sobie dokumentów. Realizacja projektu bezpośrednio wpłynie na wzmocnienie procesu uwierzytelniania tożsamości dla operacji realizowanych przez klientów i pracowników Banku. W konsekwencji poprawie ulegnie zwiększenie bezpieczeństwa usług bankowych ale także usług społecznych świadczonych za pomocą Profilu Zaufanego. Projekt realizowany w ramach czterech etapów badawczych – dwa etapy zaplanowano jako badania przemysłowe i kolejne dwa jako prace rozwojowe.

INZNAK - Inteligentne znaki drogowe do adaptacyjnego sterowania ruchem pojazdów, komunikujące się w technologii V2X. Projekt nr POIR.04.01.04-00-0089/16 realizowany jest w ramach działania 4.1.4 Programu Operacyjnego Inteligentny Rozwój 2014-2020
Celem projektu jest opracowanie rozwiązań koncepcyjnych i przeprowadzenie badań eksperymentalnych nowego rodzaju inteligentnych znaków drogowych, które umożliwią zapobieganie najczęstszym kolizjom na autostradach, wynikającym z ze spiętrzeń ruchu na skutek przypadkowego gwałtownego hamowania. Opracowana zostanie typoszereg produktów, w tym inteligentne znaki drogowe: stojące, wiszące i mobilne, wyświetlające dynamicznie aktualizowane ograniczenie prędkości jazdy, ustalane automatycznie, za pomocą wbudowanego modułu elektronicznego, umożliwiające multimodalny pomiar warunków drogowych (wideo, dźwięk i analiza meteorologiczna). Inteligentny znak drogowy przekaże prędkość obliczoną w odniesieniu do informacji otrzymanych z rzędu podobnych znaków umieszczonych wzdłuż odcinka autostrady, które będą komunikować się ze sobą za pośrednictwem sieci bezprzewodowej. Jego rozwój wymaga rozwiązania szeregu zagadnień badawczych i technologicznych, takich jak: efektywne i niezależne od warunków pogodowych szacowanie ruchu dokonywane na podstawie jednoczesnej analizy kilku rodzajów reprezentacji danych, metody obliczania gradientu prędkości dla różnych sytuacje na drodze z uwzględnieniem topologii drogi, stworzenia platformy do samoorganizującego się i niezawodnego połączenia bezprzewodowego oraz przeprowadzenia zaplanowanych na odpowiednią skalę testów prototypów. Planowane wdrożenie doprowadzi do opracowania produktów zwiększających bezpieczeństwo na drodze, na które istnieje popyt na rynku światowym. Rozwiązanie to wpisuje się także w oryginalny sposób w szybko rosnący trend rozwoju komunikacji samochodów z infrastrukturą drogową, umożliwiając wszystkim kierowcom dostęp do cyfrowej infrastruktury drogowej.

INUSER - Inteligentne monitorowanie stanu turbiny wiatrowej.
Przedmiotem projektu jest opracowanie stacji pomiarowej do wibroakustycznego monitorowania pracy maszyn elektrycznych, w szczególności turbin wiatrowych. Opracowane stacje pomiarowe wykorzystują multimodalny zestaw czujników zawierający typowo stosowane akcelerometry, a także sondę akustyczną i inklinometr. Stacje pomiarowe zostały włączone do systemu wykorzystującego sztuczną sieć neuronową do monitorowania wibroakustycznego maszyn mechaniczno-elektrycznych, w szczególności do wczesnego wykrywania możliwych usterek. Jednostka centralna jest połączona za pośrednictwem modułu sieci neuronowej, tj. modułu decyzyjnego uczenia maszynowego, w celu późniejszego przesyłania uzyskanych ostrzeżeń za pośrednictwem modułu komunikacyjnego. Pomiary pochodzące z czujników środowiskowych są przesyłane do systemu analitycznego. Uzyskane parametry w jednostce centralnej są następnie klasyfikowane wybranymi metodami z wykorzystaniem sieci neuronowych. W module decyzyjnym klasyfikator binarny określa występowanie nietypowego stanu w monitorowanym urządzeniu. Klasyfikatory oparte na inteligentnych metodach obliczeniowych dają w efekcie algorytm klasyfikacji danego okresu pracy turbiny jako typowego lub nietypowego, a także szacowania stopnia odchylenia od nominalnego trybu pracy mechanizmu. Zastosowanie systemu umożliwia przeprowadzenie multimodalnej analizy pracy maszyn elektrycznych w oparciu o uzyskane wielkości fizyczne z czujników środowiskowych, co wpływa na osiągnięcie zwiększonego bezpieczeństwa technicznego i środowiskowego, szczególnie w środowisku wielkoskalowych turbin wiatrowych.

IDENT - Multimodalny, biometryczny system weryfikacji tożsamości klienta bankowego. Projekt finansowany przez Narodowe Centrum Badań i Rozwoju w ramach Programu Badań Stosowanych, nr projektu: PBS/B3/26/2015, realizowany 2015-01-01 - 2018-03-31.
Celem projektu jest stworzenie technologii umożliwiającej automatyczną weryfikację tożsamości klienta banku, oferującej wysoką skuteczność autoryzacji oraz podwyższenie efektywności użytkowania systemów weryfikacji po stronie klienta. Założeniem projektu jest stworzenie wielomodalnego systemu, składającego się z warstwy sprzętowej oraz z dedykowanego oprogramowania, którego zadaniem jest akwizycja danych pochodzących z różnego typu czujników, przetwarzanie tych danych oraz ich fuzja wraz z analizą, zmierzająca do niezawodnego potwierdzenia tożsamości osoby będącej klientem banku. Opracowana technologia zostanie przetestowana na grupie 10 000 osób.

HCIBRAIN - Metody komunikacji człowiek-komputer do diagnozowania i stymulacji pacjentów z ciężkimi urazami mózgu - projekt finansowany przez Narodowe Centrum Nauki, umowa nr UMO-2014/15/B/ST7/04724, realizowany 2015-07-16 - 2019-03-15.
Głównym celem projektu jest opracowanie koncepcji i rozwiązań zintegrowanego systemu multimodalnego do stymulacji pacjenta z uszkodzeniami mózgu i rejestracji sygnałów ABR, EEG, ERP i okulograficznych (śledzenie wzroku). Stworzona zostanie walidowana procedura diagnostyki i polisensorycznej terapii kognitywnej, która stanowić będzie bardziej skuteczne i szerzej dostępne podejście do diagnozy i rehabilitacji pacjentów niekomunikujących się, w szczególności tych pozostających w stanie śpiączki. Do realizacji badań eksperymentalnego prototypu z udziałem pacjentów włączone zostanie 6 specjalistycznych ośrodków medycznych.

INPREDO - Dobór dopuszczalnych prędkości ruchu na drogach z uwzględnieniem dynamicznego zarządzania ruchem - projekt finansowany przez NCBiR, umowa nr DZP/RID-I-69/14/NCBR. Projekt realizowany 2016-01-01 - 2019-03-31.
Głównym celem praktycznym postawionym przed projektem InPreDo jest stworzenie inteligentnego systemu doboru dopuszczalnych prędkości ruchu drogowego. W szczególności w ramach projektu opracowane zostaną narzędzia dostarczające wytycznych doboru dopuszczalnych prędkości ruchu na drogach. Powstaną także szczegółowe zalecenia w zakresie kryteriów i procedur decydowania o wprowadzeniu innego niż ustawowy limitu prędkości dopuszczalnej na drogach publicznych. Dodatkowym celem InPreDo będzie stworzenie Map Dynamicznych ilustrujących aktualny stan nawierzchni i przepustowości dróg z wyznaczonymi limitami prędkości na konkretnych odcinkach.

ALOFON - projekt finansowany przez Narodowe Centrum Nauki w Krakowie w ramach konkursu OPUS, nr umowy: UMO-2012/05/B/ST7/02151, realizowany 2016-02-19 - 2019-02-18.
Celem projektu jest przeprowadzenie badań mających na celu opracowanie metodyki automatycznej transkrypcji fonetycznej mowy w języku angielskim, opartej na wykorzystaniu informacji pochodzących z analizy sygnałów fonicznych i wizyjnych. W ramach projektu przeprowadzone zostaną badania nad związkiem pomiędzy zróżnicowaniem alofonicznym w mowie, tj. różnicami w charakterze tych samych głosek wynikających z różnego ułożenia artykulatorów w zależności od środowiska fonetycznego a obiektywnymi parametrami sygnału. Założeniem jest opracowanie metody, która pozwoli różnicować drobne zróżnicowania alofoniczne i akcentowe. Opracowanie metody automatycznej transkrypcji fonetycznej pozwoli na usprawnienie pracy w wielu obszarach, takich jak nauka języka angielskiego (przyspieszenie procesu nauczania wymowy angielskiej, np. w nauczaniu na odległość), badania fonetyczne i fonologiczne (przetwarzanie korpusów językowych) oraz automatyczne rozpoznawanie akcentu.

MODALITY - Wielomodalny system wspomagania komunikacji fonicznej i foniczno-wizyjnej z komputerami mobilnymi - projekt finansowany przez NCBiR w ramach Projektu Badań Stosowanych, grant nr PBS1/B3/16/2012.
Celem projektu realizowanego przez Laboratorium Akustyki Fonicznej, Katedrę Systemów Multimedialnych ETI oraz firmę Intel Technology Poland, jest wspomaganie komunikacji fonicznej i foniczno-wizyjnej z komputerami mobilnymi. Prowadzone w projekcie badania przemysłowe służą podniesieniu standardów użytkowania tego typu urządzeń poprzez poprawę parametrów toru fonicznego oraz jakości komunikacji użytkownika z komputerem. Wiążą się z tym dwa główne tematy prac: technologia Smart Sound oraz audiowizualne rozpoznawanie mowy. Więcej informacji o projekcie.

Wektorowa analiza zjawisk falowych w rzeczywistym polu akustycznym - projekt finansowany przez Narodowe Centrum Nauki w ramach konkuru OPUS, umowa nr UMO-2-12/05/B/ST7/02151.
Głównym celem projektu z zakresu badań podstawowych w dziedzinie akustyki fonicznej i inżynierii dźwięku było przeprowadzenie analizy zjawisk falowych zachodzących w rzeczywistym polu akustycznym w otoczeniu drgających struktur (źródeł dźwięku) oraz innych obiektów, na które oddziałuje strumień przepływającej energii akustycznej. Pierwszym wątkiem badawczym była analiza pola akustycznego w otoczeniu wybranych instrumentów muzycznych. Drugi wątek badawczy dotyczył badania oddziaływania strumienia energii akustycznej wytwarzanej przez różne źródła dźwięku (głośniki) na symulator ludzkiej głowy i torsu (manekin HATS) oraz dyfuzor akustyczny. Więcej informacji o projekcie.

INNOTECH - System przestrzennego rozpoznawania gestów ze sprzężeniem zwrotnym. Projekt realizowany przez Katedrę Systemów Multimedialnych i Samsung Electronics Polska Sp. z o.o., współfinansowany ze środków publicznych przez Narodowe Centrum Badań i Rozwoju w ramach ścieżki programowej In-Tech Programu "INNOTECH" (INNOTECH-K1_IN1_41_159382_NCBR_12).

MULTIMODAL - Opracowanie nowego rodzaju komputerowych interfejsów multimodalnych oraz ich wdrożenie w edukacji i w medycynie - projekt finansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego, grant nr 6 ZR9 2007 C/06828.
Celem projektu jest opracowanie i wdrożenie w produktach tej firmy zupełnie nowych sposobów komunikacji użytkownika z komputerem (innych, niż tradycyjna mysz i klawiatura). Użytkownik będzie mógł się komunikować z komputerem m. in. za pomocą wzroku (śledzenie przez komputer położenia gałek ocznych i uwagi wzrokowej), za pomocą inteligentnego długopisu (terapia dysleksji), za pomocą ruchów warg (pomoc dla osób z niedowładem rąk, sparaliżowanych) i in. Informacje o projekcie.

MAYDAY EURO 2012 - Superkomputerowa platforma kontekstowej analizy strumieni danych multimedialnych do identyfikacji wyspecyfikowanych obiektów lub niebezpiecznych zdarzeń. Projekt strukturalny w ramach Programu Operacyjnego Innowacyjna Gospodarka 2007-2013, umowa nr POIG.02.03.03-00-008/08.
Cel projektu: opracowanie platformy badawczej KASKADA (Kontekstowa Analiza Strumieni danych z Kamer dla Aplikacji Definiujących Alarmy) dostępnej na komputerze na superkomputerze Galera służącej do realizacji badań w dyscyplinie informatyki, w zakresie wdrażania algorytmów analizy strumieni multimedialnych oraz ich wykorzystania w bezpieczeństwie, medycynie i ochronie własności intelektualnej. Strona projektu. Strona opracowanej platformy KASKADA.

SYNAT - System Nauki i Techniki - projekt finansowany przez Narodowe Centrum Badań i Rozwoju, grant nr SP/I/1/77065/10. Zadanie badawcze realizowane w latach 2010-2013 przez sieć naukową zrzeszającą 16 instytucji krajowych. Celem projektu jest opracowanie koncepcji oraz wdrożenie sieciowej platformy hostingowej i komunikacyjnej dla zdigitalizowanej wiedzy wykorzystywanej przez badaczy, jednostki naukowe, studentów itp. W ramach projektu, Katedra Systemów Multimedialnych realizuje zadania: Semantyczne metody wyszukiwania w dużych kolekcjach dokumentów tekstowych, Metodyka integracji heterogenicznych źródeł wiedzy, Podsystemy analizy zawartości repozytoriów multimedialnych, archiwizacji i wyszukiwania materiału dźwiękowego. Strona projektu. Music4U - opracowany system.

SECURITY - Multimedialny system wspomagający identyfikację i zwalczanie przestępczości (w tym przemocy w szkołach) oraz terroryzmu - projekt finansowany przez MNiSW, grant nr R00-O0005/3.
Projekt wspierany przez Polską Platformę Bezpieczeństwa Wewnętrznego, którego wyniki pozwolą na monitorowanie stanu bezpieczeństwa na stadionach, w szkołach i miejscach zagrożonych terrorem. Istota projektu polega na opracowaniu narzędzi teleinformatycznych, które uzupełnią istniejące i stale rozwijane systemy monitoringu wizyjnego i akustycznego. Uzupełnienie to będzie polegało na wprowadzeniu funkcji automatycznego rozumienia dźwięków i obrazów, tak aby systemy komputerowe w sposób automatyczny mogły wykrywać potencjalne zagrożenia i informować o nich służby odpowiedzialne za bezpieczeństwo i porządek publiczny.

NOISE - Opracowanie metodyki monitorowania środowiska aglomeracji miejskich z zastosowaniem nowoczesnych środków teleinformatycznych i technologii geoinformacyjnych - projekt finansowany przez MNiSW, grant nr R02 010 01. Projekt polegający na opracowaniu narzędzi teleinformatycznych do monitorowania hałasu i ruchu drogowego w aglomeracjach miejskich. Ideę wykorzystał Urząd Miasta Gdańska, ponadto PG podpisała umowę licencyjną z firmą DGT, dotyczącą wdrażania opracowanych inteligentnych bezprzewodowych stacji monitoringowych w innych miastach. Opracowany system.

Multimedialny System Monitorowania Hałasu (grant wewnętrzny). Projekt powiązany tematycznie z projektem NOISE.

Komputerowe sterowanie w organach piszczałkowych - grant MNiSW nr 8 8030 9102

Komputerowe sterowanie instrumentem organowym - grant MNiSW nr 8S50302806

APARATY_SŁUCHOWE - Metody przetwarzania sygnałów do zastosowań w specjalnych protezach słuchu - projekt finansowany przez MNiSW, grant nr 3 T11E02829. Projekt poświęcony specjalnym nieinwazyjnym protezom słuchu, głównie przeznaczonym dla noworodków.

LARYNX - Nowe pomoce elektroniczne dla osób po laryngektomii.
Oryginalny pomysł aktywnej sztucznej krtani dla osób po laryngektomii, czyli amputacji krtani. Cyfrowa krtań elektroniczna oraz miniaturowy syntetyzer mowy dla osób z bezgłosem, opracowane w ramach grantu celowego, zrealizowanego wspólnie ze spółdzielnią Intech z Gdańska, są aktualnie wdrażane przez tę firmę do produkcji seryjnej na mocy licencji udzielonej przez PG (projekt dofinansowany z funduszu grantu celowy FSNT NOT).

CEMET - Centre of Medical Technologies
- Centrum Doskonałości w ramach 5. Programu Ramowego UE

Międzynarodowe Centrum Słuchu i Mowy (Centrum Doskonałości PROKSIM, Warszawa - Gdańsk)

Interdyscyplinarne ujęcie problemu szumów usznych i wynikające z niego technologie elektronicznego wspomagania diagnostyki i terapii

KEY_IPIPAN - Politechnika Gdańska, jako jeden z głównych wykonawców projektu przystąpiła do konsorcjum koordynowanego przez Instytut Podstaw Informatyki PAN, i podjęła się wprowadzania inteligentnych metod obliczeniowych do informatyzacji radia i w dziedzinie telemedycyny. Wykonawcą projektu z ramienia Politechniki Gdańskiej jest Katedra Systemów Multimedialnych.

KEY_KSMPG - projekt kluczowy z dziedziny informatyki, w którym Katedrze Systemów Multimedialnych powierzono rolę koordynatora i wykonawcy projektu. Tematyka projektu stanowi rozszerzenie zagadnień związanych z opracowaniem i wdrażaniem nowych technologii interfejsów multimodalnych.

NOWE_MEDIA - podprojekt w ramach Narodowego Projektu Foresight "Polska 2020", w którym rolą Katedry Systemów Multimedialnych jest rozwinięcie przyszłościowych koncepcji rozwoju mediów w naszym kraju.

VoIP - Nowe metody kodowania mowy dla potrzeb telefonii IP (T11D 004 28).
Projekt poświęcony opracowaniu bardziej efektywnych koderów mowy dla potrzeb wykorzystania w darmowej telefonii internetowej.

SDSA - Wytworzenie i wprowadzenie do badań klinicznych prototypowej serii cyfrowej protezy mowy dla osób jąkających się, opartej na widmowej modyfikacji sygnału w pętli audytoryjnego sprzężenia zwrotnego - w ramach programu "Techne" Fundacji na rzecz Nauki Polskiej.

INFOPILOT - Cyfrowy system rejestracji i rekonstrukcji sygnału mowy dla potrzeb lotnictwa wojskowego (148346/C-T00/2002).
Opracowano system do rejestracji, transmisji i poprawy jakości mowy transmitowanej pomiędzy naziemnymi stacjami bazowymi i pilotami samolotów szkolno-bojowych, wdrożony w 2005 r. w "Szkole Orląt" w Dęblinie.

System ekspercki do obiektywizacji ocen głosów śpiewaczych (3 T11F 023 30)

Metody tworzenia i porządkowania hipotez rytmicznych w utworach muzycznych (3 T11F02729)

Opracowanie i wdrożenie powszechnego systemu diagnostyczno-informacyjnego z zakresu ochrony przeciwdźwiękowej (badania własne)

Rozwój koncepcji i zastosowań inteligentnych technik multimedialnych - w ramach Subsydium dla Uczonych Fundacji na rzecz Nauki Polskiej

Opracowanie komputerowych narzędzi do badań słuchu, mowy i wzroku oraz elektronicznych systemów telemedycznej diagnostycznych

4T11D01422 - Nowe metody wyszukiwania informacji multimedialnej w sieciach telekomunikacyjnych

7T11E05220 - Metoda oceny skuteczności systemów implantów ślimakowych

8T11D00218 - Metody realizacji dźwięku dla potrzeb wielokanałowego przekazu multimedialnego

8T11D02819 - Kodowanie perceptualne sygnału fonicznego z zastosowaniem inteligentnych algorytmów decyzyjnych

8T11E03415 - Nowe algorytmy cyfrowych protez słuchu i metody dopasowania aparatów słuchowych

8T11D02112 - Nowe metody inteligentnej filtracji i kodowania sygnału fonicznego

8T11E03310 - Nowe metody diagnostyki i terapii uszkodzeń słuchu z wykorzystaniem technologii cyfrowego przetwarzania sygnałów

4PO5D01609 - Korygowanie wad wymowy w oparciu o modyfikacje sygnałów w pętli audytoryjnego sprzężenia zwrotnego

8T11C02808 - Zastosowanie metod sztucznej inteligencji do analizy i przetwarzania danych w akustyce

7TO7B02009 - Nowe metody cyfrowej syntezy dźwięku

8S50302106 - Zastosowania zbiorów przybliżonych

8T11D00208 - Rozwój metod cyfrowej rekonstrukcji i kształtowania sygnałów fonicznych

8S50401005 - Cyfrowa rekonstrukcja i kształtowanie sygnałów fonicznych

883169203 - System komputerowego rozpoznawania mowy