Badania naukowe

Badania naukowe

Prace badawcze prowadzone w Katedrze Systemów Multimedialnych obejmują szeroki zakres zagadnień związanych z dźwiękiem, obrazem, technologiami multimedialnymi, interfejsami multimodalnymi i wieloma innymi zagadnieniami. Rozwiązania opracowane w Katedrze były prezentowane na wielu krajowych i zagranicznych wystawach, zdobywając liczne nagrody i wyróżnienia. Wiele rozwiązań uzyskało ochronę patentową w Polsce i na świecie. Wyniki prac badawczych są publikowane w czasopismach oraz prezentowane podczas konferencji naukowych. Publikacje, referaty konferencyjne i patenty powstałe w Katedrze są odnotowane w bazie bibliograficznej .

Najważniejsze tematy prac badawczych aktualnie prowadzonych w Katedrze zestawiono poniżej.

  • Technologia studyjna:
    • rejestracja dźwięku i obrazu
    • przetwarzanie sygnałów
    • montaż i miksowanie nagrań
    • post-produkcja dźwięku i obrazu
    • systemy wirtualnej rzeczywistości
    • wielokanałowe systemy dźwięku
  • Analiza i przetwarzanie sygnałów fonicznych:
    • rekonstruowanie nagrań
    • rozpoznawanie mowy
    • synteza mowy
    • algorytmy poprawy jakości i zrozumiałości mowy
    • filtracja przestrzenna, lokalizacja źródeł dźwięku
    • wspomaganie osób z zaburzeniami słuchu i mowy
  • Analiza i przetwarzanie sygnałów wizyjnych:
    • rozpoznawanie obiektów w obrazie
    • wykrywanie i śledzenie obiektów ruchomych
    • wizyjne rozpoznawanie mowy
    • analiza obrazu z kamer ToF, termowizyjnych i podczerwieni
    • animacja komputerowa postaci
    • systemy przechwytywania ruchu (motion capture)
  • Interfejsy multimodalne człowiek-maszyna:
    • interfejsy dla osób niepełnosprawnych
    • sterowanie komputerem za pomocą śledzenia wzroku
    • sterowanie za pomocą gestów
    • sterowanie głosowe
    • analiza fal mózgowych
  • Technologie bezpieczeństwa:
    • biometryczne rozpoznawanie osób
    • weryfikacja podpisu
    • wykrywanie niebezpiecznych zdarzeń w obrazie z kamery
    • wykrywanie zdarzeń dźwiękowych
  • Systemy teleinformatyczne:
    • monitorowanie środowiska, mapy hałasu
    • multimedialne systemy telemedyczne – diagnostyka słuchu i wzroku
  • Implementacje algorytmów przetwarzania danych multimedialnych
    • procesory sygnałowe (DSP)
    • moduły uruchomieniowe i systemy wbudowane (Intel Galileo, itp.)
    • platformy do obliczeń równoległych (np. GPU)
    • obliczenia superkomputerowe
  • Multimedialne zastosowania metod uczenia maszynowego
    • algorytmy sztucznej inteligencji
    • rozpoznawanie i klasyfikacja dźwięków i obrazów
  • Akustyka muzyczna
    • rozpoznawanie dźwięków i fraz muzycznych
    • ocena testów subiektywnych
    • testy odsłuchowe
    • ocena jakości głosów śpiewaczych
  • Technika nagłaśniania:
    • projektowanie akustyczne pomieszczeń
    • projektowanie systemów nagłośnieniowych
    • metody adaptacji akustycznej pomieszczeń
    • pomiary akustyczne pomieszczeń
  • Technologie mobilne:
    • diagnostyka i monitorowanie stanu zdrowia
    • nowe formy komunikowania się osób

Projekty badawcze

Katedra Systemów Multimedialnych bierze udział w wielu projektach badawczych, zarówno europejskich, jak i krajowych, finansowanych przez Ministerstwo Nauki i Szkolnictwa Wyższego oraz inne instytucje naukowe.

Projekty krajowe - realizowane

IDENT - Multimodalny, biometryczny system weryfikacji tożsamości klienta bankowego. Projekt finansowany przez Narodowe Centrum Badań i Rozwoju w ramach Programu Badań Stosowanych, nr projektu: PBS/B3/26/2015.
Celem projektu jest stworzenie technologii umożliwiającej automatyczną weryfikację tożsamości klienta banku, oferującej wysoką skuteczność autoryzacji oraz podwyższenie efektywności użytkowania systemów weryfikacji po stronie klienta. Założeniem projektu jest stworzenie wielomodalnego systemu, składającego się z warstwy sprzętowej oraz z dedykowanego oprogramowania, którego zadaniem jest akwizycja danych pochodzących z różnego typu czujników, przetwarzanie tych danych oraz ich fuzja wraz z analizą, zmierzająca do niezawodnego potwierdzenia tożsamości osoby będącej klientem banku. Opracowana technologia zostanie przetestowana na grupie 10 000 osób.

HCIBRAIN - Metody komunikacji człowiek-komputer do diagnozowania i stymulacji pacjentów z ciężkimi urazami mózgu - projekt finansowany przez Narodowe Centrum Nauki, umowa nr UMO-2014/15/B/ST7/04724.
Głównym celem projektu jest opracowanie koncepcji i rozwiązań zintegrowanego systemu multimodalnego do stymulacji pacjenta z uszkodzeniami mózgu i rejestracji sygnałów ABR, EEG, ERP i okulograficznych (śledzenie wzroku). Stworzona zostanie walidowana procedura diagnostyki i polisensorycznej terapii kognitywnej, która stanowić będzie bardziej skuteczne i szerzej dostępne podejście do diagnozy i rehabilitacji pacjentów niekomunikujących się, w szczególności tych pozostających w stanie śpiączki. Do realizacji badań eksperymentalnego prototypu z udziałem pacjentów włączone zostanie 6 specjalistycznych ośrodków medycznych.

INPREDO - Dobór dopuszczalnych prędkości ruchu na drogach z uwzględnieniem dynamicznego zarządzania ruchem - projekt finansowany przez NCBiR, umowa nr DZP/RID-I-69/14/NCBR.
Głównym celem praktycznym postawionym przed projektem InPreDo jest stworzenie inteligentnego systemu doboru dopuszczalnych prędkości ruchu drogowego. W szczególności w ramach projektu opracowane zostaną narzędzia dostarczające wytycznych doboru dopuszczalnych prędkości ruchu na drogach. Powstaną także szczegółowe zalecenia w zakresie kryteriów i procedur decydowania o wprowadzeniu innego niż ustawowy limitu prędkości dopuszczalnej na drogach publicznych. Dodatkowym celem InPreDo będzie stworzenie Map Dynamicznych ilustrujących aktualny stan nawierzchni i przepustowości dróg z wyznaczonymi limitami prędkości na konkretnych odcinkach.

ALOFON - projekt finansowany przez Narodowe Centrum Nauki w Krakowie w ramach konkursu OPUS, nr umowy: UMO-2012/05/B/ST7/02151.
Celem projektu jest przeprowadzenie badań mających na celu opracowanie metodyki automatycznej transkrypcji fonetycznej mowy w języku angielskim, opartej na wykorzystaniu informacji pochodzących z analizy sygnałów fonicznych i wizyjnych. W ramach projektu przeprowadzone zostaną badania nad związkiem pomiędzy zróżnicowaniem alofonicznym w mowie, tj. różnicami w charakterze tych samych głosek wynikających z różnego ułożenia artykulatorów w zależności od środowiska fonetycznego a obiektywnymi parametrami sygnału. Założeniem jest opracowanie metody, która pozwoli różnicować drobne zróżnicowania alofoniczne i akcentowe. Opracowanie metody automatycznej transkrypcji fonetycznej pozwoli na usprawnienie pracy w wielu obszarach, takich jak nauka języka angielskiego (przyspieszenie procesu nauczania wymowy angielskiej, np. w nauczaniu na odległość), badania fonetyczne i fonologiczne (przetwarzanie korpusów językowych) oraz automatyczne rozpoznawanie akcentu.

Projekty europejskie - zrealizowane

COPCAMS - COgnitive & Perceptive CAMeraS - projekt w ramach platformy ARTEMIS, grant nr 332913, realizowany w latach 2013-2016.
Konsorcjum projektu składa się z 21 partnerów z siedmiu krajów europejskich. Celem projektu jest opracowanie zintegrowanych systemów analizy obrazu z kamer, z wykorzystaniem programowalnych, wielordzeniowych platform obliczeniowych. Umożliwi to zastosowanie opracowanych rozwiązań w ramach inteligentnych kamer (smart cameras), cechujących się dużą mocą obliczeniową i niskim zużyciem energii. System analizy obrazu jest zdecentralizowany: pojedyncze kamery prowadzą analizę obrazu, systemy agregacji danych zbierają wyniki analizy w pewnej liczby kamer i podejmują decyzję o istotności tych wyników i o potrzebie ich przekazania na wyższy poziom systemu. Strona projektu.

ADDPRIV - Automatic Data relevancy Discrimination for a PRIVacy-sensitive video surveillance) - projekt finansowany przez EU w ramach platformy CORDIS, FP7-SECURITY, grant nr 261653.
Celem projektu jest poprawa bezpieczeństwa publicznego przez zapewnienie prawa prywatności osobom objętym monitoringiem. Zadanie to, realizowane jest poprzez rozszerzenie funkcjonalności istniejących systemów monitoringu o automatyczną dyskryminację nieistotnych nagrań. Projekt ADDPRIV związany jest z analizą nagrań pochodzących z systemów monitoringu wizyjnego. Poprzez zastosowanie automatycznych metod, realizowane jest ich oznaczanie jako istotnych, bądź nieistotnych z punktu widzenia bezpieczeństwa. To z kolei, pozwala ograniczyć przestrzeń dyskową konieczną do przechowywania rejestracji, co tym samym prowadzi do zwiększenia prywatności osób znajdujących się na obszarze objętym monitoringiem. Więcej informacji o projekcie.

PERFORM - A sophisticated multi-parametric system for the continuous effective assessment and monitoring of motor status in parkinson’s disease and other neurodegenerative diseases. Projekt finansowany przez EU w ramach FP7, grant nr 215952. Zintegrowany projekt dziedziny telemedycyny, koordynowany przez firmę Siemens. Katedra Systemów Multimedialnych ma za zadanie opracowanie narzędzi teleinformatycznych do zdalnego monitorowania pacjentów cierpiących na choroby neurodegeneratywne (głównie Parkinsonizm).

INDECT - Intelligent information system supporting observation, searching and detection for security of citizens in urban environment - projekt finansowany przez EU w ramach FP7-2007, grant nr 218086.
Rozwinięcie projektu SECURITY na skalę europejską, z udziałem policji polskiej, niemieckiej i europejskiej, czołowych uczelni technicznych polskich i europejskich. PG jest postulatorem i głównym wykonawcą tego projektu, który został przyznany we wrześniu 2007 r., z budżetem rzędu kilkunastu mln. euro (fundatorem badań jest Komisja Europejska). Jest to pierwszy zintegrowany projekt europejski z dziedziny technologii bezpieczeństwa, przygotowany i koordynowany w Polsce. Strona projektu.

PRESTOSPACE - Preservation towards storage and access, Standardised Practices for Audiovisual Contents in Europe - projekt finansowany przez Unię Europejską w ramach 6. Programu Ramowego UE, grant nr FP6-IST-707336.
W Politechnice Gdańskiej opracowano narzędzia do rekonstrukcji materiału archiwalnego - starych nagrań i filmów. Repozytoria europejskie zawierają blisko 200 mln. godzin tego typu materiału, którego część będzie można ochronić od dalszej deprecjacji, dzięki wykorzystaniu opracowanych narzędzi. Strona projektu.

DESYME - Development System for Mobile Services - projekt finansowany przez EU w ramach platformy CELTIC, grant nr CP1-042.
Zakończony w 2007 r. projekt międzynarodowy, którego wyniki otwierają możliwość samodzielnego projektowania i programowania różnego rodzaju usług w sieciach komórkowych (wcześniej była to domena operatorów sieci komórkowych).

Projekty badawcze krajowe - zrealizowane

MODALITY - Wielomodalny system wspomagania komunikacji fonicznej i foniczno-wizyjnej z komputerami mobilnymi - projekt finansowany przez NCBiR w ramach Projektu Badań Stosowanych, grant nr PBS1/B3/16/2012.
Celem projektu realizowanego przez Laboratorium Akustyki Fonicznej, Katedrę Systemów Multimedialnych ETI oraz firmę Intel Technology Poland, jest wspomaganie komunikacji fonicznej i foniczno-wizyjnej z komputerami mobilnymi. Prowadzone w projekcie badania przemysłowe służą podniesieniu standardów użytkowania tego typu urządzeń poprzez poprawę parametrów toru fonicznego oraz jakości komunikacji użytkownika z komputerem. Wiążą się z tym dwa główne tematy prac: technologia Smart Sound oraz audiowizualne rozpoznawanie mowy. Więcej informacji o projekcie.

Wektorowa analiza zjawisk falowych w rzeczywistym polu akustycznym - projekt finansowany przez Narodowe Centrum Nauki w ramach konkuru OPUS, umowa nr UMO-2-12/05/B/ST7/02151.
Głównym celem projektu z zakresu badań podstawowych w dziedzinie akustyki fonicznej i inżynierii dźwięku było przeprowadzenie analizy zjawisk falowych zachodzących w rzeczywistym polu akustycznym w otoczeniu drgających struktur (źródeł dźwięku) oraz innych obiektów, na które oddziałuje strumień przepływającej energii akustycznej. Pierwszym wątkiem badawczym była analiza pola akustycznego w otoczeniu wybranych instrumentów muzycznych. Drugi wątek badawczy dotyczył badania oddziaływania strumienia energii akustycznej wytwarzanej przez różne źródła dźwięku (głośniki) na symulator ludzkiej głowy i torsu (manekin HATS) oraz dyfuzor akustyczny. Więcej informacji o projekcie.

INNOTECH - System przestrzennego rozpoznawania gestów ze sprzężeniem zwrotnym. Projekt realizowany przez Katedrę Systemów Multimedialnych i Samsung Electronics Polska Sp. z o.o., współfinansowany ze środków publicznych przez Narodowe Centrum Badań i Rozwoju w ramach ścieżki programowej In-Tech Programu "INNOTECH" (INNOTECH-K1_IN1_41_159382_NCBR_12).

MULTIMODAL - Opracowanie nowego rodzaju komputerowych interfejsów multimodalnych oraz ich wdrożenie w edukacji i w medycynie - projekt finansowany przez Ministerstwo Nauki i Szkolnictwa Wyższego, grant nr 6 ZR9 2007 C/06828.
Celem projektu jest opracowanie i wdrożenie w produktach tej firmy zupełnie nowych sposobów komunikacji użytkownika z komputerem (innych, niż tradycyjna mysz i klawiatura). Użytkownik będzie mógł się komunikować z komputerem m. in. za pomocą wzroku (śledzenie przez komputer położenia gałek ocznych i uwagi wzrokowej), za pomocą inteligentnego długopisu (terapia dysleksji), za pomocą ruchów warg (pomoc dla osób z niedowładem rąk, sparaliżowanych) i in. Informacje o projekcie.

MAYDAY EURO 2012 - Superkomputerowa platforma kontekstowej analizy strumieni danych multimedialnych do identyfikacji wyspecyfikowanych obiektów lub niebezpiecznych zdarzeń. Projekt strukturalny w ramach Programu Operacyjnego Innowacyjna Gospodarka 2007-2013, umowa nr POIG.02.03.03-00-008/08.
Cel projektu: opracowanie platformy badawczej KASKADA (Kontekstowa Analiza Strumieni danych z Kamer dla Aplikacji Definiujących Alarmy) dostępnej na komputerze na superkomputerze Galera służącej do realizacji badań w dyscyplinie informatyki, w zakresie wdrażania algorytmów analizy strumieni multimedialnych oraz ich wykorzystania w bezpieczeństwie, medycynie i ochronie własności intelektualnej. Strona projektu. Strona opracowanej platformy KASKADA.

SYNAT - System Nauki i Techniki - projekt finansowany przez Narodowe Centrum Badań i Rozwoju, grant nr SP/I/1/77065/10. Zadanie badawcze realizowane w latach 2010-2013 przez sieć naukową zrzeszającą 16 instytucji krajowych. Celem projektu jest opracowanie koncepcji oraz wdrożenie sieciowej platformy hostingowej i komunikacyjnej dla zdigitalizowanej wiedzy wykorzystywanej przez badaczy, jednostki naukowe, studentów itp. W ramach projektu, Katedra Systemów Multimedialnych realizuje zadania: Semantyczne metody wyszukiwania w dużych kolekcjach dokumentów tekstowych, Metodyka integracji heterogenicznych źródeł wiedzy, Podsystemy analizy zawartości repozytoriów multimedialnych, archiwizacji i wyszukiwania materiału dźwiękowego. Strona projektu. Music4U - opracowany system.

SECURITY - Multimedialny system wspomagający identyfikację i zwalczanie przestępczości (w tym przemocy w szkołach) oraz terroryzmu - projekt finansowany przez MNiSW, grant nr R00-O0005/3.
Projekt wspierany przez Polską Platformę Bezpieczeństwa Wewnętrznego, którego wyniki pozwolą na monitorowanie stanu bezpieczeństwa na stadionach, w szkołach i miejscach zagrożonych terrorem. Istota projektu polega na opracowaniu narzędzi teleinformatycznych, które uzupełnią istniejące i stale rozwijane systemy monitoringu wizyjnego i akustycznego. Uzupełnienie to będzie polegało na wprowadzeniu funkcji automatycznego rozumienia dźwięków i obrazów, tak aby systemy komputerowe w sposób automatyczny mogły wykrywać potencjalne zagrożenia i informować o nich służby odpowiedzialne za bezpieczeństwo i porządek publiczny.

NOISE - Opracowanie metodyki monitorowania środowiska aglomeracji miejskich z zastosowaniem nowoczesnych środków teleinformatycznych i technologii geoinformacyjnych - projekt finansowany przez MNiSW, grant nr R02 010 01. Projekt polegający na opracowaniu narzędzi teleinformatycznych do monitorowania hałasu i ruchu drogowego w aglomeracjach miejskich. Ideę wykorzystał Urząd Miasta Gdańska, ponadto PG podpisała umowę licencyjną z firmą DGT, dotyczącą wdrażania opracowanych inteligentnych bezprzewodowych stacji monitoringowych w innych miastach. Opracowany system.

Multimedialny System Monitorowania Hałasu (grant wewnętrzny). Projekt powiązany tematycznie z projektem NOISE.

Komputerowe sterowanie w organach piszczałkowych - grant MNiSW nr 8 8030 9102

Komputerowe sterowanie instrumentem organowym - grant MNiSW nr 8S50302806

APARATY_SŁUCHOWE - Metody przetwarzania sygnałów do zastosowań w specjalnych protezach słuchu - projekt finansowany przez MNiSW, grant nr 3 T11E02829. Projekt poświęcony specjalnym nieinwazyjnym protezom słuchu, głównie przeznaczonym dla noworodków.

LARYNX - Nowe pomoce elektroniczne dla osób po laryngektomii.
Oryginalny pomysł aktywnej sztucznej krtani dla osób po laryngektomii, czyli amputacji krtani. Cyfrowa krtań elektroniczna oraz miniaturowy syntetyzer mowy dla osób z bezgłosem, opracowane w ramach grantu celowego, zrealizowanego wspólnie ze spółdzielnią Intech z Gdańska, są aktualnie wdrażane przez tę firmę do produkcji seryjnej na mocy licencji udzielonej przez PG (projekt dofinansowany z funduszu grantu celowy FSNT NOT).

CEMET - Centre of Medical Technologies
- Centrum Doskonałości w ramach 5. Programu Ramowego UE

Międzynarodowe Centrum Słuchu i Mowy (Centrum Doskonałości PROKSIM, Warszawa - Gdańsk)

Interdyscyplinarne ujęcie problemu szumów usznych i wynikające z niego technologie elektronicznego wspomagania diagnostyki i terapii

KEY_IPIPAN - Politechnika Gdańska, jako jeden z głównych wykonawców projektu przystąpiła do konsorcjum koordynowanego przez Instytut Podstaw Informatyki PAN, i podjęła się wprowadzania inteligentnych metod obliczeniowych do informatyzacji radia i w dziedzinie telemedycyny. Wykonawcą projektu z ramienia Politechniki Gdańskiej jest Katedra Systemów Multimedialnych.

KEY_KSMPG - projekt kluczowy z dziedziny informatyki, w którym Katedrze Systemów Multimedialnych powierzono rolę koordynatora i wykonawcy projektu. Tematyka projektu stanowi rozszerzenie zagadnień związanych z opracowaniem i wdrażaniem nowych technologii interfejsów multimodalnych.

NOWE_MEDIA - podprojekt w ramach Narodowego Projektu Foresight "Polska 2020", w którym rolą Katedry Systemów Multimedialnych jest rozwinięcie przyszłościowych koncepcji rozwoju mediów w naszym kraju.

VoIP - Nowe metody kodowania mowy dla potrzeb telefonii IP (T11D 004 28).
Projekt poświęcony opracowaniu bardziej efektywnych koderów mowy dla potrzeb wykorzystania w darmowej telefonii internetowej.

SDSA - Wytworzenie i wprowadzenie do badań klinicznych prototypowej serii cyfrowej protezy mowy dla osób jąkających się, opartej na widmowej modyfikacji sygnału w pętli audytoryjnego sprzężenia zwrotnego - w ramach programu "Techne" Fundacji na rzecz Nauki Polskiej.

INFOPILOT - Cyfrowy system rejestracji i rekonstrukcji sygnału mowy dla potrzeb lotnictwa wojskowego (148346/C-T00/2002).
Opracowano system do rejestracji, transmisji i poprawy jakości mowy transmitowanej pomiędzy naziemnymi stacjami bazowymi i pilotami samolotów szkolno-bojowych, wdrożony w 2005 r. w "Szkole Orląt" w Dęblinie.

System ekspercki do obiektywizacji ocen głosów śpiewaczych (3 T11F 023 30)

Metody tworzenia i porządkowania hipotez rytmicznych w utworach muzycznych (3 T11F02729)

Opracowanie i wdrożenie powszechnego systemu diagnostyczno-informacyjnego z zakresu ochrony przeciwdźwiękowej (badania własne)

Rozwój koncepcji i zastosowań inteligentnych technik multimedialnych - w ramach Subsydium dla Uczonych Fundacji na rzecz Nauki Polskiej

Opracowanie komputerowych narzędzi do badań słuchu, mowy i wzroku oraz elektronicznych systemów telemedycznej diagnostycznych

4T11D01422 - Nowe metody wyszukiwania informacji multimedialnej w sieciach telekomunikacyjnych

7T11E05220 - Metoda oceny skuteczności systemów implantów ślimakowych

8T11D00218 - Metody realizacji dźwięku dla potrzeb wielokanałowego przekazu multimedialnego

8T11D02819 - Kodowanie perceptualne sygnału fonicznego z zastosowaniem inteligentnych algorytmów decyzyjnych

8T11E03415 - Nowe algorytmy cyfrowych protez słuchu i metody dopasowania aparatów słuchowych

8T11D02112 - Nowe metody inteligentnej filtracji i kodowania sygnału fonicznego

8T11E03310 - Nowe metody diagnostyki i terapii uszkodzeń słuchu z wykorzystaniem technologii cyfrowego przetwarzania sygnałów

4PO5D01609 - Korygowanie wad wymowy w oparciu o modyfikacje sygnałów w pętli audytoryjnego sprzężenia zwrotnego

8T11C02808 - Zastosowanie metod sztucznej inteligencji do analizy i przetwarzania danych w akustyce

7TO7B02009 - Nowe metody cyfrowej syntezy dźwięku

8S50302106 - Zastosowania zbiorów przybliżonych

8T11D00208 - Rozwój metod cyfrowej rekonstrukcji i kształtowania sygnałów fonicznych

8S50401005 - Cyfrowa rekonstrukcja i kształtowanie sygnałów fonicznych

883169203 - System komputerowego rozpoznawania mowy