Wyniki wyszukiwania w bazie bibliograficznej

Baza bibliograficzna Katedry Systemów Multimedialnych PG

Liczba znalezionych pozycji: 540

Pozycja nr 1

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Kurowski, B. Kostek

Tytuł angielski Reinforcement Learning Algorithm and FDTD-based Simulation Applied to Schroeder Diffuser Design Optimization

Czasopismo IEEE Access

Wolumin

Numer czasopisma

Strony 1 - 15

Rok 2021

Identyfikator DOI 10.1109/ACCESS.2021.3114628

Abstract The aim of this paper is to propose a novel approach to the algorithmic design of Schroeder acoustic diffusers employing a deep learning optimization algorithm and a fitness function based on a computer simulation of the propagation of acoustic waves. The deep learning method employed for the research is a deep policy gradient algorithm. It is used as a tool for carrying out a sequential optimization process the goal of which is to maximize the fitness function based on parameters characterizing the autocorrelation diffusion coefficient of the designed acoustic diffuser. As the autocorrelation acoustic diffusion coefficients are calculated from the polar response of a diffuser, the FDTD (finite-difference time-domain) simulation method is used to obtain a set of impulse responses necessary to calculate the polar responses of the optimized Schroeder diffusers. The results obtained from optimization based on the deep learning algorithm were compared with the outcomes of an analogous algorithm employing a genetic algorithm, and based on random selection of the Schroeder diffuser well depth pattern. We found that the best result was achieved by the deep policy gradient, as it produced outcomes, which, in terms of the provided autocorrelation diffusion coefficient, were statistically better than properties of designs provided by two other baseline approaches.

Słowa kluczowe ACOUSTIC SIMULATION;FDTD (FINITE-DIFFERENCE TIME-DOMAIN);REINFORCEMENT LEARNING;SCHROEDER DIFFUSER OPTIMIZATION

Pozycja nr 2

Typ pozycji: książka

Autorzy K. Kąkol, G. Korvel, B. Kostek

Tytuł angielski Improving Objective Speech Quality Indicators in Noise Conditions

Wydawca Springer Nature Switzerland AG 2020, Cham, vol. 869

Strony 199 - 218

Rok 2020

Identyfikator DOI https://doi.org/10.1007/978-3-030-39250-5_9

Uwagi rozdział w książce, Link do wyd. https://link.springer.com/chapter/10.1007/978-3-030-39250-5_11

Abstract This work aims at modifying speech signal samples and test them with objective speech quality indicators after mixing the original signals with noise or with an interfering signal. Modifications that are applied to the signal are related to the Lombard speech characteristics, i.e., pitch shifting, utterance duration changes, vocal tract scaling, manipulation of formants. A set of words and sentences in Polish, recorded in silence, as well as in the presence of interfering signals, i.e., pink noise and the so-called babble speech, also referred to as the “cocktail-party” effect is utilized. Speech samples were then processed and measured utilizing objective indicators to check whether modifications applied to the signal in the presence of noise increased values of the speech quality index, i.e., PESQ (Perceptual Evaluation of Speech Quality) standard.

Słowa kluczowe Lombardz speech, PESQ, Evaluation of Speech Quality

Projekt badawczy DS

Pozycja nr 3

Typ pozycji: referat konferencyjny

Autorzy S. Zaporowski, B. Kostek

Tytuł angielski Ranking Speech Features for Their Usage in Singing Emotion Classification

Konferencja International Symposium on Methodologies for Intelligent Systems

Numer preprintu

Numer

Wolumin

Strony 225 - 234

Miejsce konferencji Graz, Austria

Data konferencji 23.9.2020- 25.9.2020

Identyfikator DOI 10.1007/978-3-030-59491-6

Abstract This paper aims to retrieve speech descriptors that may be useful for the classification of emotions in singing. For this purpose, Mel Frequency Cepstral Coefficients (MFCC) and selected Low-Level MPEG 7 descriptors were calculated based on the RAVDESS dataset. The database contains recordings of emotional speech and singing of professional actors presenting six different emotions. Employing the algorithm of Feature Selection based on the Forest of Trees method, descriptors with the best ranking results were determined. Then, the emotions were classified using the Support Vector Machine (SVM). The training was performed several times, and the results were averaged. It was found that descriptors used for emotion detection in speech are not as useful for singing. Also, an approach using Convolutional Neural Network (CNN) employing spectrogram representation of audio signals was tested. Several parameters for singing were determined, which, according to the obtained results, allow for a significant reduction in the dimensionality of feature vectors while increasing the classification efficiency of emotion detection.

Słowa kluczowe FEATURE SELECTION, MEL FREQUENCY CEPSTRAL COEFFICIENTS, MPEG 7 LOW-LEVEL AUDIO DESCRIPTORS, SINGING EXPRESSION CLASSIFICATION

Pozycja nr 4

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski ROAD TRAFFIC PARAMETRIZATION USING ACOUSTIC METHOD

Tytuł polski ANALIZA RUCHU DROGOWEGO Z WYKORZYSTANIEM ANALIZY AKUSTYCZNEJ

Czasopismo Przegląd Telekomunikacyjny i wiadomości telekomunikacyjne

Wolumin

Numer czasopisma 7-8

Strony

Rok 2020

Identyfikator DOI 10.15199/59.2020.7-8.53

Numer pozycji bibl. 11

Abstract The subject of the work is related to the acquisition of traffic information using acoustic monitoring. Baseline techniques of road traffic supervision are presented. The assumptions of the acoustic motion detector are introduced, and its effectiveness is examined at three levels of operation - vehicle counting, generic classification, and classification of weather conditions on the surface.

Streszczenie Tematyka pracy porusza zagadnienia dotyczące pozyskiwania informacji o ruchu drogowym z wykorzystaniem monitoringu akustycznego. Przybliżono podstawowe techniki nadzoru nad ruchem drogowym. Przedstawiono założenia akustycznego detektora ruchu i zbadano jego skuteczność na trzech płaszczyznach działania – zliczania pojazdów, klasyfikacji rodzajowej i klasyfikacji warunków pogodowych panujących na nawierzchni.

Słowa kluczowe traffic detection, acoustic traffic detector

Projekt badawczy INZNAK

Pozycja nr 5

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Szczuko, A. Kurowski, P. Odya, A. Czyżewski, B. Kostek, B. Graff

Tytuł angielski Granularity Concept Applied to Respiratory Rate Quantification and Abnormal Pattern Prediction

Czasopismo Cognitive Computation - Granular Computing and Three-Way Decisions for Cognitive Analytics

Wolumin

Numer czasopisma

Strony

Rok 2020

Uwagi w przygotowaniu

Abstract W przygotowaniu

Pozycja nr 6

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Dorochowicz, A. Kurowski, B. Kostek

Tytuł angielski Employing Subjective Tests and Deep Learning for Discovering the Relationship between Personality Types and Preferred Music Genres

Czasopismo Electronics

Wolumin 9

Numer czasopisma 12

Strony 1 - 23

Rok 2020

Identyfikator DOI https://doi.org/10.3390/electronics9122016

Uwagi Electronics 2020, 9(12), 2016; HTML Version: https://www.mdpi.com/2079-9292/9/12/2016/htm PDF Version: https://www.mdpi.com/2079-9292/9/12/2016/pdf

Abstract The purpose of this research is two-fold: (a) to explore the relationship between the listeners’ personality trait, i.e., extraverts and introverts and their preferred music genres, and (b) to predict the personality trait of potential listeners on the basis of a musical excerpt by employing several classification algorithms. We assume that this may help match songs according to the listener’s personality in social music networks. First, an Internet survey was built, in which the respondents identify themselves as extraverts or introverts according to the given definitions. Their task was to listen to music excerpts that belong to several music genres and choose the ones they like. Next, music samples were parameterized. Two parametrization schemes were employed for that purpose, i.e., low-level MIRtoolbox parameters (MIRTbx) and variational autoencoder neural network-based, which automatically extract parameters of musical excerpts. The prediction of a personality type was performed employing four baseline algorithms, i.e., support vector machine (SVM), k-nearest neighbors (k-NN), random forest (RF), and naïve Bayes (NB). The best results were obtained by the SVM classifier. The results of these analyses led to the conclusion that musical excerpt features derived from the autoencoder were, in general, more likely to carry useful information associated with the personality of the listeners than the low-level parameters derived from the signal analysis. We also found that training of the autoencoders on sets of musical pieces which contain genres other than ones employed in the subjective tests did not affect the accuracy of the classifiers predicting the personalities of the survey participants.

Streszczenie HTML Version: https://www.mdpi.com/2079-9292/9/12/2016/htm PDF Version: https://www.mdpi.com/2079-9292/9/12/2016/pdf

Słowa kluczowe Keywords: music genres; music parametrization; personality types; subjective tests; deep learning; machine learning

Projekt badawczy DS

Pozycja nr 7

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski An Evaluation of Selected Machine Learning Algorithms in Acoustic-Based Road Traffic Monitoring System

Tytuł polski Zastosowanie wybranych algorytmów uczenia maszynowego w kontekście akustycznej analizy ruchu drogowego

Konferencja 13th International Road Safety Conference GAMBIT 2020 Challenges and requirements of improving road safety until 2030

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gdański, Poland

Data konferencji 7.9.2020- 8.9.2020

Uwagi Skierowane do druku w Journal od KONBiN

Abstract The research presents the effectiveness of the selected machine learning algorithm in the two traffic analysis task: vehicle recognition and metrological pavement condition. The basics of the operation of the acoustic road parameters detector are briefly described. Then, the principles of machine learning algorithms applied was introduced. The paper contains a description of the data acquisition process, followed by technical information about the database. The study was conducted using the authors' audio recordings, registered in the Tri-City in several representative locations and three different meteorological conditions on the road surface. For each recording containing a single-vehicle passage, a vector of 67 parameters describing the audio signal was extracted. The obtained efficiency of the algorithms for each task is presented.

Projekt badawczy INZNAK

Pozycja nr 8

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Kąkol, G. Korvel, O. Kurasova, B. Kostek

Tytuł angielski Evaluation of Lombard Speech Models in the Context of Speech in Noise Enhancement

Czasopismo IEEE Access

Wolumin 8

Numer czasopisma

Strony 15515

Rok 2020

Identyfikator DOI 10.1109/ACCESS.2020.3015421

Uwagi str. 155156 - 155170

Abstract The Lombard effect is one of the most well-known effects of noise on speech production. Speech with the Lombard effect is more easily recognizable in noisy environments than normal natural speech. Our previous investigations showed that speech synthesis models might retain Lombard-effect characteristics. In this study, we investigate several speech models, such as harmonic, source-filter, and sinusoidal, applied to Lombard speech in the context of speech enhancement. For this purpose, 100 utterances of natural speech, and 100 with the Lombard effect induced are used. The goal of this study is to check to what extent speech utterances based on these models are recognizable and at what SNR (Signal-to-Noise Ratio) level threshold a particular model stops working. For this purpose, the synthesized models and Lombard speech are mixed with babble speech and street noise recordings with different SNRs. The quality of these models is measured, employing objective indicators as well as subjective tests. Since there is no standardized measure to apply to enhanced speech, an objective measure of assessing the speech quality of a model synthesizing Lombard speech characteristics, based on a feature vector, is proposed. Our approach is then compared with the standardized metric used in telecommunications as well as with subjective test results. The experimental investigations show the superiority of the source-filter models applied to synthesize Lombard speech over other models utilized. Also, the measure proposed correlates more closely with the results of the subjective evaluation than the outcomes from the ITU-T P.563 recommendation. This was checked with a ANOVA statistical analysis.

Słowa kluczowe LOMBARD SPEECH, QUALITY OF EXPERIENCE, SPEECH MODELING TECHNIQUES

Projekt badawczy DS

Pozycja nr 9

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Tamulevicius, G. Korvel, A. B Yayak, P. Treigys, J. Bernataviciene, B. Kostek

Tytuł angielski A Study of Cross-Linguistic Speech Emotion Recognition Based on 2D Feature Spaces

Czasopismo Electronics

Wolumin

Numer czasopisma 9

Strony 1725 - 1738

Rok 2020

Identyfikator DOI doi:10.3390/electronics9101725

Abstract In this research, a study of cross-linguistic speech emotion recognition is performed. For this purpose, emotional data of different languages (English, Lithuanian, German, Spanish, Serbian, and Polish) are collected, resulting in a cross-linguistic speech emotion dataset with the size of more than 10.000 emotional utterances. Despite the bi-modal character of the databases gathered, our focus is on the acoustic representation only. The assumption is that the speech audio signal carries sufficient emotional information to detect and retrieve it. Several two-dimensional acoustic feature spaces, such as cochleagrams, spectrograms, mel-cepstrograms, and fractal dimension-based space, are employed as the representations of speech emotional features. A convolutional neural network (CNN) is used as a classifier. The results show the superiority of cochleagrams over other feature spaces utilized. In the CNN-based speaker-independent cross-linguistic speech emotion recognition (SER) experiment, the accuracy of over 90% is achieved, which is close to the monolingual case of SER.

Słowa kluczowe speech analysis; speech emotion recognition; 2D feature spaces

Projekt badawczy DS

Pozycja nr 10

Typ pozycji: artykuł w czasopiśmie

Autorzy S. Cunningham, G. Fazekas, G. Kalliris, B. Kostek

Tytuł angielski GUEST EDITORS’ NOTE Special Issue on Sound in Immersion and Emotion

Czasopismo J. Audio Eng. Soc.

Wolumin 68

Numer czasopisma 1/2

Strony 5 - 6

Rok 2020

Abstract This special issue of the Journal of the Audio Engineering Society covers a range of tools and techniques concerned with bridging the gap between audio signals and their semantic information. As humans, we experience the perception of sound from a range of physical and cognitive sources, and each of these perceptions has the potential to trigger an interpretation and association, whether that be an emotional response, timbral description, musical association, or perhaps triggering a memory. We are not designed to process and understand sound on simply an acoustic level, but on one that draws upon our individual characteristics, such as education, age, culture, physicality, and mental abilities.

Słowa kluczowe Sound in Immersion and Emotion; Deep learning; Music; Music and speech signals

Projekt badawczy DS

Pozycja nr 11

Typ pozycji: artykuł w czasopiśmie

Autorzy D. Koszewski, B. Kostek

Tytuł angielski Musical Instrument Tagging Using Data Augmentation and Effective Noisy Data Processing

Czasopismo J. Audio Eng. Soc.

Wolumin 68

Numer czasopisma 1/2

Strony 57 - 65

Rok 2020

Identyfikator DOI https://doi.org/10.17743/jaes.2019.0050

Abstract Developing signal processing methods to extract information automatically has potential in several applications, for example searching for multimedia based on its audio content, making context-aware mobile applications (e.g., tuning apps), or pre-processing for an automatic mixing system. However, the last-mentioned application needs a significant amount of research to reliably recognize real musical instruments in recordings. In this paper we primarily focus on how to obtain data for efficiently training, validating, and testing a deep-learning model by using a data augmentation technique. These data are transformed into 2D feature spaces, i.e., mel-scale spectrograms. The Neural Network used in the experiments consists of a single-block DenseNet architecture and a multi-head softmax classifier for efficient learning with the mixup augmentation. For automatic noisy data labeling, the batch-wise loss masking, which is robust to corrupting outliers in data, was applied. To train the models, various audio sample rates and different audio representations were utilized. The method provides promising recognition scores even with real-world recordings that contain noisy data.

Streszczenie Musical instrument reconigtion; data augmentation; neural network

Projekt badawczy DS

Pozycja nr 12

Typ pozycji: książka

Autorzy P. Treigys, G. Korvel, G. Tamulevičius , J. Bernatavičienė , B. Kostek

Tytuł angielski Investigating Feature Spaces for Isolated Word Recognition

Wydawca Springer Nature Switzerland AG 2020,Studies in Computational Intelligence, Volume 869, Cham, vol. 869

Strony 165 - 181

Rok 2020

Identyfikator DOI https://doi.org/10.1007/978-3-030-39250-5_9

Uwagi rozdział w książce, link: https://link.springer.com/chapter/10.1007/978-3-030-39250-5_9#citeas

Abstract The study addresses the issues related to the appropriateness of a two-dimensional representation of speech signal for speech recognition tasks based on deep learning techniques. The approach combines Convolutional Neural Networks (CNNs) and time-frequency signal representation converted to the investigated feature spaces. In particular, waveforms and fractal dimension features of the signal were chosen for the time domain, and three feature spaces were investigated for the frequency domain, namely: Linear Prediction Coefficient (LPC) spectrum, Hartley spectrum, and cochleagram. Due to the fact that deep learning requires an adequate training set size of the corpus and its content may significantly influence the outcome, thus for the data augmentation purpose, the created dataset was extended with mixes of the speech signal with noise with various SNRs (Signal-to-Noise Ratio). In order to evaluate the applicability of the implemented feature spaces for isolated word recognition task, three experiments were conducted, i.e., 10-, 70-, and 111-word cases were analyzed.

Słowa kluczowe two-dimensional representation of speech signal, speech recognition

Projekt badawczy DS

Pozycja nr 13

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Piotrowska, G. Korvel, B. Kostek, T. Ciszewski, A. Czyżewski

Tytuł angielski MACHINE LEARNING-BASED ANALYSIS OF ENGLISH LATERAL ALLOPHONES

Czasopismo Int. J. Appl. Math. Comput. Sci.

Wolumin

Numer czasopisma

Strony

Rok 2019

Uwagi publikacja w 2019

Abstract Automatic classification methods, such as Artificial Neural Networks (ANNs), k-Nearest Neighbor (KNN) and Self-Organizing Maps (SOMs), are applied to allophone analysis based on recorded speech. A list of 650 words was created for that purpose, containing positionally- and/or contextually-conditioned allophones. For each word a group of 16 native and non-native speakers were audio-video recorded, from which seven native speakers and pgonologo experts were selected. For the purpose of the present study a sub-list of 103 words containing the English alveolar lateral phoneme /l/ was compiled. The list includes ’dark’ (velarized) allophonic realizations (which occur before a consonant or at the end of the word before silence) and 52 ’clear’ allophonic realizations (which occur before a vowel), as well as voicing variants. The recorded signals were segmented into allophones and parametrized using a set of descriptors, originating from the MPEG 7 standard, plus dedicated time-based parameters as well as modified MFCC features proposed by the authors. Classification methods such as ANNs, kNN and SOM were employed to automatically detect the two types of allophones. Various sets of features were tested to achieve the best performance of the automatic methods. In the final experiment, a selected set of features was used for the automatic evaluation of the pronunciation of dark /l/ by non-native speakers.

Słowa kluczowe Allophones, Audio Features, Artificial Neural Networks (ANNs), k-Nearest Neighbor (kNN), Self-Organizing Map (SOM)

Pozycja nr 14

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Korvel, B. Kostek

Tytuł angielski Discovering rule-based learning systems for the purpose of music analysis

Czasopismo J. Acoust. Soc. Amer.

Wolumin 146

Numer czasopisma 4

Strony 2947

Rok 2019

Identyfikator DOI 10.1121/1.5137237

Abstract Music analysis and processing aims at understanding information retrieved from music (Music Information Retrieval). For the purpose of music data mining, machine learning (ML) methods or statistical approach are employed. Their primary task is recognition of musical instrument sounds, music genre or emotion contained in music, identification of audio, assessment of audio content, etc. In terms of computational approach, music databases contain imprecise, vague and indiscernible data objects. Moreover, most of the machine learning algorithms outcomes are given as a black-box result. Also, underfitting or overfitting may occur, meaning that either the model description is not complex enough or the test set is too small or not sufficiently representative. Thus the goal is to generalize the model. To overcome some of these problems, rule-based systems may be used, e.g., based on rough set theory that shows the outcome in the form of rules interconnecting features retrieved from music. Thus, first, principles of rule-based classifiers and particularly rough sets (RS) are presented, showing their usability in the music domain. A potential of the rough set-based approach was shown in the context of music genre recognition. The results were analyzed in terms of the recognition rate and computation time efficiency.

Słowa kluczowe Music analysis and processing, rule-based machine learning system

Projekt badawczy DS

Pozycja nr 15

Typ pozycji: książka

Autorzy B. Kostek

Tytuł polski Postępy badań w inżynierii dźwięku i obrazu. Nowe Trendy i zastosowania technologii multimedialnych

Wydawca Akademicka Oficyna Wydawnicza EXIT

Strony 1 - 226

Rok 2019

Identyfikator DOI ISBN 978-83-7837-89-5

Uwagi Redakcja książki: Postępy badań w inżynierii dźwięku i obrazu. Nowe Trendy i zastosowania technologii multimedialnych Wydawn. za 80 punktów

Abstract Redakcja książki

Streszczenie Tytuł niniejszej książki nawiązuje do inżynierii dźwięku i obrazu, która jest interdyscyplinarną i szybko rozwijającą się dziedziną. Obejmuje wiele aspektów takich, jak percepcja dźwięku i obrazu, technologia studyjna, reżyseria dźwięku i obrazu, transmisja treści audiowizualnych, archiwizacja treści audiowizualnych, akustyka foniczna, przetwarzanie dźwięku i obrazu, inteligentne wyszukiwanie informacji muzycznych, synteza dźwięku, elektroakustyka, akustyka wnętrz, rozpoznawanie obrazu i wiele innych, które leżą u podstaw multimediów i technologii multimedialnych. I właśnie druga część tego tytułu zamyka klamrą zagadnienia, które zostaną przedstawione w niniejszej książce. Ponadto metody uczenia maszynowego stosowane w wyżej wymienionych tematach stały się istotną częścią inżynierii dźwięku i obrazu i multimediów. Zostaną one przywołane w wybranych zastosowaniach. Warto w tym miejscu wspomnieć, że - ze względu na interdyscyplinarność - nie jest możliwe wyczerpujące opracowanie monograficzne poświęcone temu obszarowi badań.

Słowa kluczowe inżynieria dźwięku i obrazu, przetwarzanie dźwięku i obrazu, multimedia

Projekt badawczy DS

Pozycja nr 16

Typ pozycji: artykuł w czasopiśmie

Autorzy S. Zaporowski, B. Kostek

Tytuł angielski ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU

Tytuł polski ANALYSIS OF SPEECH SIGNAL PARAMETERS IN THE CONTEXT OF THEIR SUITABILITY IN THE AUTOMATIC ASSESSMENT OF THE QUALITY OF SINGING EXPRESSION

Czasopismo Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

Wolumin

Numer czasopisma 68

Strony 61 - 64

Rok 2019

Streszczenie Praca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory niskopoziomowe MPEG 7. W celu selekcji cech, posiadających najlepsze wyniki rankingowe, wykorzystano las drzew. Następnie dokonano klasyfikacji emocji z za pomocą maszyny wektorów nośnych (SVM, Support Vector Machine). Stwierdzono, że parametryzacja skuteczna dla mowy nie jest skuteczna dla śpiewu. Wyznaczono podstawowe parametry, które zgodnie z otrzymanymi wynikami pozwalają na znaczną redukcję wymiarowości wektorów cech, jednocześnie podnosząc skuteczność klasyfikacji.

Słowa kluczowe ANALIZA ŚPIEWU, EKSTRAKCJA PARAMETRÓW, KLASYFIKACJA EMOCJI W ŚPIEWIE, NISKOPOZIOMOWE DESKRYPTORY SYGNAŁU

Pozycja nr 17

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, B. Kostek

Tytuł angielski A Method of Automatic Design of an Acoustic Diffuser Based on a Genetic Algorithm

Konferencja 11th International Workshop on DATA ANALYSIS METHODS FOR SOFTWARE SYSTEMS

Numer preprintu

Numer

Wolumin

Strony 46 - 46

Miejsce konferencji Druskininkai, Litwa

Data konferencji 28.11.2019- 30.11.2019

Identyfikator DOI 10.15388/DAMSS.11.2019

Abstract A method of automatic design of an acoustic diffuser based on a genetic algorithm is proposed. This allows defining the geometry of an acoustic diffuser, which is tailored to the room of specific geometry and the purpose of music mixing or mastering music or performing other types of audio-related work. Parameters that are commonly employed to describe the quality of acoustic treatment, such as the size of a reflection-free zone, sound clarity and the ratio of direct to reverberant sound are employed as a fitness function for the genetic algorithm. They are computed with the use of the finite time difference method, which imposes relatively low requirements related to the computational power of a computer used for calculations. The experiment is conducted for selected geometries of rooms. Optionally, a room designed also contains devices providing attenuation of unwanted sound reflections. The performance of Schroeder diffuser is compared with the performance of two reference designs obtained with the use of QRD (Quadratic Residue Diffusers) and PRD (Primitive Root Diffusers) pseudo-random sequences. The simulation is carried out for each acoustic diffuser designed. It is repeated several times with changes in the position of sound sources to estimate the quality of each design concerning the position of loudspeakers. The performance of diffuser geometries is compared for each of the four parameters with the use of the ANOVA statistical test and visualized in the form of boxplots.

Projekt badawczy DS

Pozycja nr 18

Typ pozycji: artykuł w czasopiśmie

Autorzy D. Korzekwa, B. Kostek

Tytuł angielski Deep learning model for automated assessment of lexical stress of non-native English speakers

Czasopismo J. Acoust. Soc. Amer.

Wolumin 146

Numer czasopisma 4

Strony 2956

Rok 2019

Identyfikator DOI 10.1121/1.5137270

Abstract In this paper, we present a novel system to practice lexical stress in L2 English learning with Amazon Alexa home assistant. The language learning for non-native English speakers mostly focuses on practicing correct grammar, extending language vocabulary, and improving pronunciation. The system proposed enables a person to practice lexical stress skills at home by having conversations with Alexa assistant. The system assesses student's abilities to enunciate words with a correct lexical stress and automatically selects the next words to practice. After a series of exercises, the system informs the student on the improvement. The main scientific contribution of the work presented is a deep learning model for automated assessment of lexical stress of non-native English speakers. The model is based on a transfer learning technique. First, we train the model to predict the location of a lexical stress on a syllable level using a large corpus of native English speech. Then, we tune the model with a limited amount of a non-native speech. A corpus of non-native English speech obtained from Polish speakers is incorporated into the training and testing of the model. It is shown that the system enables to create a vocabulary for a particular speaker interactively.

Słowa kluczowe automated assessment of lexical stress, machine learning

Projekt badawczy DS

Pozycja nr 19

Typ pozycji: referat konferencyjny

Autorzy D. Korzekwa, R. Barra-Chicote, B. Kostek, T. Drugman, M. Lajszczak

Tytuł angielski Interpretable Deep Learning Model for the Detection and Reconstruction of Dysarthric Speech

Konferencja UK Speech Conference 2019, The University of Birmingham, UK 24{25 June

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Birmingham,, UK

Data konferencji 24.6.2019- 25.6.2019

Uwagi http://www.thespeechark.com/ukspeech2019/abstractBook_UKSpeech2019_fin_noLogos.pdf

Abstract We present a novel deep learning model for the detection and reconstruction of dysarthric speech. We train the model with a multi-task learning technique to jointly solve dysarthria detection and speech reconstruction tasks. The model key feature is a low-dimensional latent space that is meant to encode the prop- erties of dysarthric speech. It is commonly believed that neural networks are black boxes that solve problems but do not provide interpretable outputs. On the contrary, we show that this latent space successfully encodes interpretable characteristics of dysarthria, is eective at detecting dysarthria, and that ma- nipulation of the latent space allows the model to reconstruct healthy speech from dysarthric speech. This work can help patients and speech pathologists to improve their understanding of the condition, lead to more accurate diagnoses and aid in reconstructing healthy speech for aicted patients.

Streszczenie https://www.researchgate.net/publication/334388948_Interpretable_Deep_Learning_Model_for_the_Detection_and_Reconstruction_of_Dysarthric_Speech

Słowa kluczowe deep learning model, detection and reconstruction of dysarthric speech

Projekt badawczy DS

Pozycja nr 20

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski Road Traffic Event Classifier Based on Machine Learning and Audio Signal

Konferencja DISP'19, International Conference on Digital Image & Signal Processing

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Oxford, UK

Data konferencji 29.4.2019- 30.4.2019

Uwagi ISBN: 978-1-912532-09-4

Abstract This paper contains a description of the event classifier in road traffic, as well as conditions related to the surface hydrological condition of the roadway based on deep learning and audio signal recorded. Technical requirements for audio signal acquisition were defined, followed by the process of preparing data for analysis, extraction of selected parameters and classification of selected problems related to road traffic. The proposed functionality of acoustic traffic analysis includes: detection of the presence of a vehicle, automatic vehicles counting, traffic statistics for given intervals, classification of the surface condition, classification of three types of vehicles. In the registration of dynamic data related to traffic, the parameters determined by the proposed audio analyzer are: the number of vehicles in the time interval of observation, average intensity per minute, average speed in the observation interval and distance between vehicles determined in time unit [s]. The project is partly financed by the Polish National Centre for Research and Development (NCBR) from the European Regional Development Fund under the Operational Programme Innovative Economy No. POIR.04.01.04-00-0089/16 entitled: INZNAK – “Intelligent road signs for adaptive traffic control, communicating in V2X technology”.

Słowa kluczowe Machine learning, deep learning, traffic road event classification, audio signal, Gammatone filters

Projekt badawczy INZNAK

Pozycja nr 21

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Sound engineering as our commitment to its creators in Poland

Czasopismo Archives of Acoustics

Wolumin 44

Numer czasopisma 3

Strony 617 - 617

Rok 2019

Uwagi 150860 w moja.pg, 66th Open Seminar on Acoustics Boszkowo, Poland, September 18 – 20, 2019

Słowa kluczowe sound engineering

Projekt badawczy DS

Pozycja nr 22

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Remembrance about Marianna Sankiewicz and Gustaw Budzyński – our teachers and scientific mentors

Czasopismo Archives of Acoustics

Wolumin 44

Numer czasopisma 3

Strony 615 - 615

Rok 2019

Identyfikator DOI 10.24425/aoa.2019.129274

Uwagi 150859 w moja.pg, 66th Open Seminar on Acoustics Boszkowo, Poland, September 18 – 20, 2019

Słowa kluczowe Sound engineering

Projekt badawczy DS

Pozycja nr 23

Typ pozycji: referat konferencyjny

Autorzy D. Korzekwa, R. Barra-Chicote, B. Kostek, T. Drugman, M. Łajszczak

Tytuł angielski Interpretable Deep Learning Model for the Detection and Reconstruction of Dysarthric Speech

Tytuł polski Detekcja i rekonstrukcja mowy dyzartrycznej za pomocą uczenia głębokiego

Konferencja INTERSPEECH 2019

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Graz, Austria

Data konferencji 15.9.2019- 19.9.2019

Identyfikator DOI DOI: 10.21437/Interspeech.2019

Uwagi https://www.isca-speech.org/archive/Interspeech_2019/

Abstract We present a novel deep learning model for the detection and reconstruction of dysarthric speech. We train the model with a multi-task learning technique to jointly solve dysarthria detection and speech reconstruction tasks. The model key feature is a low-dimensional latent space that is meant to encode the properties of dysarthric speech. It is commonly believed that neural networks are black boxes that solve problems but do not provide interpretable outputs. On the contrary, we show that this latent space successfully encodes interpretable characteristics of dysarthria, is effective at detecting dysarthria, and that manipulation of the latent space allows the model to reconstruct healthy speech from dysarthric speech. This work can help patients and speech pathologists to improve their understanding of the condition, lead to more accurate diagnoses and aid in reconstructing healthy speech for afflicted patients.

Streszczenie referat wprowadzony do moja.pg, konferencja indeskowana w WoS, SCOPUS, CORE Lista MNiSW: nr rekordu: 344 European Conference on Speech Communication and Technology (now Interspeech) 140 punktów

Słowa kluczowe dysarthria detection, speech recognition, speech synthesis, interpretable deep learning models

Projekt badawczy DS

Pozycja nr 24

Typ pozycji: artykuł w czasopiśmie

Autorzy T. Poremski, P. Szymański, B. Kostek

Tytuł angielski Assessment of the Effectiveness of a Short-term Hearing Aid Use in Patients with Different Degrees of Hearing Loss

Czasopismo Archives of Acoustics

Wolumin 44

Numer czasopisma 4

Strony 719 - 729

Rok 2019

Identyfikator DOI 10.24425/aoa.2019.129727

Uwagi 150858 w moja.pg

Abstract The study presents evaluating the effectiveness of the hearing aid fitting process in the short-term use (7 days). The evaluation method consists of a survey based on the APHAB (Abbreviated Profile of Hearing Aid Benefit) questionnaire. Additional criteria such as a degree of hearing loss, number of hours and days of hearing aid use as well as the user’s experience were also taken into consideration. The outcomes of the benefit obtained from the hearing aid use in various listening environments for 109 hearing aid users are presented, including a degree of their hearing loss. The research study results show that it is possible to obtain relevant and reliable information helpful in assessing the effectiveness of the shortterm (7 days) hearing aid use. The overall percentage of subjects gaining a benefit when communicating in noise is the highest of all the analyzed and the lowest in the environment with reverberation. The statistical analysis performed confirms that in the listening environments in which conversation is held, a subjective indicator determined by averaging benefits for listening situations individually is statistically significant with respect to the degree of hearing loss. Statistically significant differences depending on the degree of hearing loss are also found separately for noisy as well as reverberant environments. However, it should be remembered that this study is limited to three types of hearing loss, i.e. mild, moderate and severe. The acceptance of unpleasant sounds gets the lowest rating. It has also been observed that in the initial period of hearing aid use, the perception of unpleasant sounds has a big influence on the evaluation of hearing improvement.

Słowa kluczowe hearing aid; APHAB (Abbreviated Profile of Hearing Aid Benefit); assessment of hearing aid benefit; hearing loss; evaluation of hearing aid use.

Projekt badawczy DS

Pozycja nr 25

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski Road Traffic Event Classification Based on Audio Signal - Classification Algorithms Overview

Tytuł polski Klasyfikacja zdarzeń drogowych na podstawie analizy sygnałów – przegląd algorytmów klasyfikacji

Konferencja XVIII Międzynarodowa Konferencja Zwalczania Hałasu Noise Control 2019

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Janów Podlaski, Polska

Data konferencji 26.5.2019- 29.5.2019

Abstract The aim of this experiment was to examine the performance of selected classification algorithms in application to Intelligent Transportation Systems (ITS). The paper contains a description of the vehicle type classifier in road traffic, as well as conditions related to the surface hydrological condition of the roadway. In the introduction, technical requirements for audio signal acquisition are briefly defined, followed by the description of preprocessing and feature extraction process. Five classification algorithms were chosen: Naive Bayesian Classifier, Perceptron Learning Algorithm, Regression Analysis, Linear Discriminant analysis and Fisher – Linear Discriminant Analysis. Each algorithm was trained 300 times in 45:20:35 ratio (training, validation and test sets, in every iteration, selected randomly). From the vector of the target and the predicted output, a complex performance analysis was carried out.

Słowa kluczowe noise; road traffic classification;

Projekt badawczy INZNAK

Pozycja nr 26

Typ pozycji: książka

Autorzy D. Weber, B. Kostek

Tytuł angielski Color analysis of film scenes in the context of color grading,

Tytuł polski Analiza kolorów scen filmowych w kontekście color gradingu

Wydawca Politechnika Gdańska

Strony 57 - 60

Rok 2019

Identyfikator DOI 10.32016/1.68.12

Słowa kluczowe analiza koloru, color grading

Projekt badawczy DS

Pozycja nr 27

Typ pozycji: książka

Autorzy G. Korvel, A. Kurowski, B. Kostek, A. Czyżewski

Tytuł angielski Speech Analytics Based on Machine Learning

Wydawca Springer

Strony 129 - 157

Rok 2019

Identyfikator DOI 10.1007/978-3-319-94030-4_6

Abstract In this chapter, the process of speech data preparation for machine learning is discussed in detail. Examples of speech analytics methods applied to phonemes and allophones are shown. Further, an approach to automatic phoneme recognition involving optimized parametrization and a classifier belonging to machine learning algorithms is discussed. Feature vectors are built on the basis of descriptors coming from the music information retrieval (MIR) domain. Then, phoneme classification beyond the typically used techniques is extended towards exploring Deep Neural Networks (DNNs). This is done by combining Convolutional Neural Networks (CNNs) with audio data converted to the time-frequency space domain (i.e. spectrograms) and then exported as images. In this way a two-dimensional representation of speech feature space is employed. When preparing the phoneme dataset for CNNs, zero padding and interpolation techniques are used. The obtained results show an improvement in classification accuracy in the case of allophones of the phoneme /l/, when CNNs coupled with spectrogram representation are employed. Contrarily, in the case of vowel classification, the results are better for the approach based on pre-selected features and a conventional machine learning algorithm.

Słowa kluczowe CONVOLUTIONAL NEURAL NETWORKS, DATA PREPARATION, DEEP LEARNING, MACHINE LEARNING, SPEECH SIGNAL

Projekt badawczy ALOFON

Pozycja nr 28

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Korvel, O. Kurasova, B. Kostek

Tytuł angielski Comparison of Lithuanian and Polish Consonant Phonemes Based on Acoustic Analysis – Preliminary Results

Czasopismo Archives of Acoustics

Wolumin 44

Numer czasopisma 4

Strony 693 - 707

Rok 2019

Identyfikator DOI 10.24425/aoa.2019.129725

Uwagi 150857 w moja.pg

Abstract The goal of this research is to find a set of acoustic parameters that are related to differences between Polish and Lithuanian language consonants. In order to identify these differences, an acoustic analysis is performed, and the phoneme sounds are described as the vectors of acoustic parameters. Parameters known from the speech domain as well as those from the music information retrieval area are employed. These parameters are time- and frequency-domain descriptors. English language as an auxiliary language is used in the experiments. In the first part of the experiments, an analysis of Lithuanian and Polish language samples is carried out, features are extracted, and the most discriminating ones are determined. In the second part of the experiments, automatic classification of Lithuanian/English, Polish/English, and Lithuanian/Polish phonemes is performed.

Słowa kluczowe acoustic analysis; consonant phonemes; acoustic parameters; machine learning methods

Projekt badawczy DS

Pozycja nr 29

Typ pozycji: książka

Autorzy Sz Zaporowski, B. Kostek

Tytuł angielski ANALYSIS OF THE SPEECH SIGNAL PARAMETERS IN THE CONTEXT OF THEIR SUITABILITY IN THE AUTOMATIC QUALITY OF SINGING EXPRESSION ASSESSMENT

Tytuł polski ANALIZA PARAMETRÓW SYGNAŁU MOWY W KONTEKŚCIE ICH PRZYDATNOŚCI W AUTOMATYCZNEJ OCENIE JAKOŚCI EKSPRESJI ŚPIEWU

Wydawca Politechnika Gdańska

Strony 61 - 64

Rok 2019

Identyfikator DOI 10.32016/1.68.13

Uwagi Rozdział w monografii "Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej" nr 68

Abstract This paper concerns the approach to parameterization for the classification of emotions in singing and comparison with the classification of emotions in speech. For this purpose, the RAVDESS database containing emotional speech and song was used. This database contains recordings of professional actors presenting six different emotions. Next, Mel Frequency Cepstral Coefficients and selected Low-Level MPEG 7 descriptors were calculated. Using the algorithm of Feature Selection based on a Forest of Trees, coefficients, and descriptors with the best ranking results were determined. Then, the emotions were classified using the Support Vector Machine. The classification was repeated several times, and the results were averaged. It was found that descriptors used for emotion detection in speech are not as useful for singing. Basic parameters for singing were determined which, according to the obtained results, allow for a significant reduction in the dimensionality of feature vectors while increasing the classification efficiency of emotion detection.

Streszczenie Praca dotyczy podejścia do parametryzacji w przypadku klasyfikacji emocji w śpiewie oraz porównania z klasyfikacją emocji w mowie. Do tego celu wykorzystano bazę mowy i śpiewu nacechowanego emocjonalnie RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), zawierającą nagrania profesjonalnych aktorów prezentujących sześć różnych emocji. Następnie obliczono współczynniki mel-cepstralne (MFCC) oraz wybrane deskryptory niskopoziomowe MPEG 7. W celu selekcji cech, posiadających najlepsze wyniki rankingowe, wykorzystano las drzew. Następnie dokonano klasyfikacji emocji z za pomocą maszyny wektorów nośnych (SVM, Support Vector Machine). Stwierdzono, że parametryzacja skuteczna dla mowy nie jest skuteczna dla śpiewu. Wyznaczono podstawowe parametry, które zgodnie z otrzymanymi wynikami pozwalają na znaczną redukcję wymiarowości wektorów cech, jednocześnie podnosząc skuteczność klasyfikacji

Słowa kluczowe niskopoziomowe deskryptory sygnału, analiza śpiewu, ekstrakcja parametrów, klasyfikacja emocji w śpiewie

Pozycja nr 30

Typ pozycji: książka

Autorzy A. Kurowski, K. Mrozik, B. Kostek, A. Czyżewski

Tytuł angielski Automatic Clustering of EEG-Based Data Associated with Brain Activity

Wydawca Springer

Strony 470 - 479

Rok 2019

Identyfikator DOI 10.1007/978-3-319-98678-4_47

Abstract The aim of this paper is to present a system for automatic assigning electroencephalographic (EEG) signals to appropriate classes associated with brain activity. The EEG signals are acquired from a headset consisting of 14 electrodes placed on skull. Data gathered are first processed by the Independent Component Analysis algorithm to obtain estimates of signals generated by primary sources reflecting the activity of the brain. Next, the parameterization process is performed in two ways, i.e. by applying Discrete Wavelet Transform and utilizing an autoencoder network. The resulting sets of parameters are then used for the data clustering and the effectiveness of correct assignment of data into adequate clusters is checked. It occurs that the performance of wavelets- and autoencoders-based parametrization is similar, however in several cases, autoencoders allowed for obtaining a higher mean distance and lower standard deviation than distances provided by the wavelet-based method. Moreover, a supervised classification of signals is performed as a form of benchmarking.

Słowa kluczowe BRAIN ACTIVITY, DATA CLUSTERING, DEEP LEARNING, EEG SIGNAL, HUMAN-COMPUTER INTERFACES (HCI)

Projekt badawczy HCIBRAIN

Pozycja nr 31

Typ pozycji: referat konferencyjny

Autorzy Sz Zaporowski, B. Kostek, A. Czyżewski

Tytuł angielski Automatic Transcription of Speech to International Phonetic Alphabet Employing Acoustical and Facial Motion Capture Data

Konferencja International Conference on Digital Image & Signal Processing

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Oxford, Wielka Brytania

Data konferencji 29.4.2019- 30.4.2019

Uwagi Plakat

Abstract An approach to ASR systems combined with the IPA transcription is presented. The system can provide STT accuracy in the range of 70-80%, which could be not enough for discerning classes in practice. Experimental allophone detection was implemented with the use of allophone boundaires. However, the complex nature of the issue and the need to manually mark allophones boundaries by phonology specialists should be taken into account in this particular experiment, since it influences results. That is visible especially, when comparing present results with results of previous author’s research in this subject.

Słowa kluczowe ALOFON, DEEP LEARNING, FACIAL MOTION CAPTURE

Projekt badawczy ALOFON

Pozycja nr 32

Typ pozycji: książka

Autorzy B. Kostek

Tytuł polski Wprowadzenie

Wydawca Akademicka Oficyna Wydawnicza EXIT

Strony 8 - 15

Rok 2019

Identyfikator DOI ISBN 978-83-7837-89-5

Uwagi rozdział w książce, Postępy badań w inżynierii dźwięku i obrazu. Nowe Trendy i zastosowania technologii multimedialnych Wydawn. za 80 punktów

Streszczenie Tytuł niniejszej książki nawiązuje do inżynierii dźwięku i obrazu, która jest interdyscyplinarną i szybko rozwijającą się dziedziną. Obejmuje wiele aspektów takich, jak percepcja dźwięku i obrazu, technologia studyjna, reżyseria dźwięku i obrazu, transmisja treści audiowizualnych, archiwizacja treści audiowizualnych, akustyka foniczna, przetwarzanie dźwięku i obrazu, inteligentne wyszukiwanie informacji muzycznych, synteza dźwięku, elektroakustyka, akustyka wnętrz, rozpoznawanie obrazu i wiele innych, które leżą u podstaw multimediów i technologii multimedialnych. I właśnie druga część tego tytułu zamyka klamrą zagadnienia, które zostaną przedstawione w niniejszej książce. Ponadto metody uczenia maszynowego stosowane w wyżej wymienionych tematach stały się istotną częścią inżynierii dźwięku i obrazu i multimediów. Zostaną one przywołane w wybranych zastosowaniach. Warto w tym miejscu wspomnieć, że - ze względu na interdyscyplinarność - nie jest możliwe wyczerpujące opracowanie monograficzne poświęcone temu obszarowi badań.

Słowa kluczowe inżynieria dźwięku i obrazu, przetwarzanie dźwięku i obrazu, multimedia

Projekt badawczy DS

Pozycja nr 33

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Music Information Retrieval – the Impact of Technology in Art, Crowdsourcing, Big Data, and the Cloud

Czasopismo J. Acoust. Soc. Amer.

Wolumin 146

Numer czasopisma 4

Strony

Rok 2019

Identyfikator DOI https://doi.org/10.1121/1.5137234

Uwagi https://asa.scitation.org/doi/10.1121/1.5137234

Abstract The exponential growth of computer processing power, cloud data storage, and crowdsourcing model of gathering data bring new possibilities to Music Information Retrieval (MIR) field. MIR is no longer music content retrieval only; the area also comprises the discovery of expressing feelings and emotions contained in music, incorporating other than hearing modalities for helping this issue, users’ profiling, merging music with social media and qualitative recommendations in music services. Moreover, 5G telecommunications networks, characterized by ‘near-instant and everything in the vicinity talks with one another,’ with exponentially faster download and upload speeds, may change the existing models and create a new age of interconnectedness. This paper aims at showing some of the already highly exploited technologies and crowdsourcing models applied to music processing. Several studies are discussed in details, such as, e.g., deep learning applied to music, a way to generate an expanded training sets using 2-D data such spectrograms, mel-cepstrograms, chromagrams, and waveform-based representations of the signal instead of feature vectors in machine learning, allowing to retain all nuances related musical articulation in the signal. Also, a discussion is to be outlined, expanding the issue of the impact of these new technologies on the artistic and aesthetic values of music.

Słowa kluczowe Music information retrieval, crowdsourcing, big data, machine learning

Projekt badawczy DS

Pozycja nr 34

Typ pozycji: referat konferencyjny

Autorzy G. Korvel, O. Kurasova, B. Kostek

Tytuł angielski An Attempt to Create Speech Synthesis Model That Retains Lombard Effect Characteristics

Konferencja SIGMAP 2019 - 16th International Conference on Signal Processing and Multimedia Applications

Numer preprintu

Numer

Wolumin

Strony 280 - 289

Miejsce konferencji Prague, Czech Republic

Data konferencji 26.7.2019- 28.7.2019

Identyfikator DOI 10.5220/0007854302800289

Uwagi ISBN: 978-989-758-378-0; Proceedings of the 16th International Joint Conference on e-Business and Telecommunications (ICETE 2019),

Abstract The speech with the Lombard effect has been extensively studied in the context of speech recognition or speech enhancement. However, few studies have investigated the Lombard effect in the context of speech synthesis. The aim of this paper is to create a mathematical model that allows for retaining the Lombard effect. These models could be used as a basis of a formant speech synthesizer. The proposed models are based on dividing the speech signal into harmonics and modeling them as the output of a SISO system whose transfer function poles are multiple, and inputs vary in time. An analysis of the Lombard effect of the synthesized signal is performed on the noise residual. The synthesized signal residual is described by vectors of acoustic parameters related to the Lombard effect. For testing the performance of the created models in various noise conditions two classifiers are employed, namely kNN and Naive Bayes. For comparison of results, we created models of sinusoids based on frequency tracks. The results show that a model based on the residual sinewave sum demonstrates the possibility of retaining the Lombard effect. Finally, future work directions are outlined in conclusions.

Streszczenie http://insticc.org/node/TechnicalProgram/icete/presentationDetails/78543

Słowa kluczowe Speech Analysis and Synthesis, Lombard Effect, SISO (Single-Input and Single-Output) System, Sinusoidal Model.

Projekt badawczy DS

Pozycja nr 35

Typ pozycji: referat konferencyjny

Autorzy S. Cygert, A. Czyżewski, M. Stefaniak, B. Kostek

Tytuł angielski Recovering Sound Produced by Wind Turbine Structures Employing Video Motion Magnification

Konferencja 146th Audio Engineering Society Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Dublin, Irlandia

Data konferencji 20.3.2019- 23.3.2019

Abstract The recordings were made with a fast video camera and with a microphone. Using fast cameras allowed for observation of the micro vibrations of the object structure. Motion-magnified video recordings of wind turbines on a wind farm were made for the purpose of building a damage prediction system. An idea was to use video to recover sound & vibrations in order to obtain a contactless diagnostic method for wind turbines. The recovered signals can be analyzed in a way similar to accelerometer signals, employing spectral analysis. They can be also played back through headphones and compared with sounds recorded by microphones.

Słowa kluczowe MOTION MAGNIFICATION, VISUAL MICROPHONE, WIND TURBINE

Projekt badawczy INUSER

Pozycja nr 36

Typ pozycji: referat konferencyjny

Autorzy G. Korvel, K. Kąkol, B. Kostek

Tytuł angielski Evaluation of Lombard speech models in the context of speech enhancement

Konferencja 11th International Workshop on DATA ANALYSIS METHODS FOR SOFTWARE SYSTEMS

Numer preprintu

Numer

Wolumin

Strony 35 - 36

Miejsce konferencji Druskininkai, Litwa

Data konferencji 28.11.2019- 30.11.2019

Identyfikator DOI 10.15388/DAMSS.11.2019

Abstract The environment noise changes the manner of expression. The Lombard effect is one of the most known effects of noise on speech production. The results obtained in our previous study lead us to conclude that speech with the Lombard effect is more recognizable in noisy environments than normal speech. Our investigations have also shown that that speech synthesis model may retain Lombard effect characteristics. In this study, we investigate several models of Lombard speech in the context of speech enhancement. For this purpose, 25 statements (15 sentences and 10 words) uttered by four speakers were used. These statements were recorded in two conditions: without additional noise as well as with interference. These conditions resulted in two types of recordings: 100 statements of normal speech and 100 with the Lombard effect, i.e., non-Lombard speech. In the experimental part of the research, the Lombard speech models such as harmonic, source-filter, and these based on sinewave oscillator bank were investigated. The main goal was to check how these models are recognizable when the signal is reverberant and at what the noise threshold the model stops working. For this purpose, the models and Lombard speech were mixed with babble speech and street noise recordings with a different signal to noise ratio (SNR). The quality of these models was measured employing objective indicators. The experimental investigations show the superiority of source-filter models over other models utilized.

Projekt badawczy DS

Pozycja nr 37

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Kurowski, K. Mrozik, B. Kostek, A. Czyżewski

Tytuł angielski Method for Clustering of Brain Activity Data Derived from EEG Signals

Czasopismo Fundamenta Informaticae

Wolumin 168

Numer czasopisma 2-4

Strony 249 - 268

Rok 2019

Identyfikator DOI 10.3233/FI-2019-1831

Abstract A method for assessing separability of EEG signals associated with three classes of brain activity is proposed. The EEG signals are acquired from 23 subjects, gathered from a headset consisting of 14 electrodes. Data are processed by applying Discrete Wavelet Transform (DWT) for the signal analysis and an autoencoder neural network for the brain activity separation. Processing involves 74 wavelets from 3 DWT families: Coiflets, Daubechies and Symlets. Euclidean distance between clusters normalized with respect to the standard deviation of the whole set of data are used to separate each task performed by participants. The results of this stage allow for an assessment of separability between subsets of data associated with each activity performed by experiment participants. The speed of convergence of the training process employing deep learning-based clustering is also measured.

Projekt badawczy HCIBRAIN

Pozycja nr 38

Typ pozycji: referat konferencyjny

Autorzy D. Weber, B. Kostek

Tytuł angielski Subjective tests for gathering konwledge for applaying color grading to video clips automatically

Konferencja SPA 2019 SIGNAL PROCESSING algorithms, architectures, arrangements, and applications Conference Proceedings

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Poznań, Polska

Data konferencji 18.9.2019- 20.9.2019

Identyfikator DOI 10.23919/SPA.2019.8936722

Abstract The analysis of film music concerning caused emotions may allow for a more accurate adaptation of the color of the film in the context of color grading. Therefore, this paper aims to gather knowledge on the correlation between the applied color palette to a video clip, music associated with a particular shot,and emotions evoked. For that purpose, subjective tests are prepared in which several video clips are presented with or without the accompanying music along with several models to describe emotions. The test is composed of three stages. First, video shots are presented: the role of the viewer isto assign the associated emotion on graphs representing the emotion model (Hevner’s, Thayer’s, Plutchik’s). Thefirst part of the testis organized to checkwhich of the emotion models is the easiest to associate the adapted color grading with emotion. Then, the test is repeated with the chosen psychological model on new video shots. The final phase consists of testing the same video shots but with accompanying music. In the paper, the meaning of the color in the film is explained based on the psychology of the color in film production. To analyze the sound path of the film, both low-and high-level parameters are given.Also, objective color measures corresponding to the tested film video shot are recalled. Assumptions for detecting emotions in the video shots to apply color grading automatically are also depicted.

Słowa kluczowe COLOR GRADING, EMOTIONS DETECTION, FILM MUSIC, FILM PRODUCTION, MOOD MODELS

Projekt badawczy DS

Pozycja nr 39

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Kurowski, K. Mrozik, B. Kostek, A. Czyżewski

Tytuł angielski Comparison of the effectiveness of automatic EEG signal class separation algorithms

Czasopismo Journal of Intelligent & Fuzzy Systems

Wolumin

Numer czasopisma

Strony 1 - 7

Rok 2019

Identyfikator DOI 10.3233/JIFS-179360

Abstract In this paper, an algorithm for automatic brain activity class identification of EEG (electroencephalographic) signals is presented. EEG signals are gathered from seventeen subjects performing one of the three tasks: resting, watching a music video and playing a simple logic game. The methodology applied consists of several steps, namely: signal acquisition, signal processing utilizing z-score normalization, parametrization and activity classification. The EEG signal is acquired from a headset containing 14 electrodes. For the parametrization two methods are used, namely, DiscreteWavelet Transform (DWT) employed as a reference parametrization technique and autoencoder neural network. Parameters obtained with those methods are fed to the input of classifiers which assigned them to one of three activity classes. Then, the effectiveness of the assignment of the frames of EEG data into appropriate classes is observed and compared. Results obtained using both methods show differences in accuracy with regard to the task detected depending on factors such as type of parametrization or complexity of the classifier employed for EEG activity classification.

Słowa kluczowe AUTOENCODER, DISCRETE WAVELET TRANSFORM, EEG SIGNAL, EEG SIGNAL CLASSIFICATION

Projekt badawczy HCIBRAIN

Pozycja nr 40

Typ pozycji: artykuł w czasopiśmie

Autorzy D. Weber, B. Kostek

Tytuł polski NALIZA KOLORÓW SCEN FILMOWYCH W KONTEKŚCIE COLOR GRADINGU

Czasopismo Zeszyty naukowe WE PG

Wolumin 68

Numer czasopisma

Strony 57 - 60

Rok 2019

Identyfikator DOI 10.32016/1.68.12

Streszczenie W artykule przedstawiono zagadnienia związane z kolorowaniem sceny filmowej. W pracy przedyskutowano główne aspekty obróbki koloru obrazu filmowego oraz omówiono definicje pojęć związanych z kolorowaniem sceny, tj.: color correction oraz color gradingu. Opisano teorie psychologii koloru oraz ich praktyczne wykorzystanie w filmie i odniesiono je do podstawowych gatunków filmowych i modeli emocji. Następnie przedyskutowano założenia metodologii analizy kolorów scen filmowych w kontekście color gradingu, obejmującej również zebranie przykładów scen filmowych i ich adnotację. Przedstawiono strukturę oraz opis algorytmu uzyskiwania najbardziej dominujących kolorów scen filmowych w produkcjach filmowych. Wynikiem pracy algorytmu jest ekstrakcja parametrów związanych z trzema najważniejszymi cechami koloru, tj.: luminancją, nasyceniem i odcieniem, czyli histogramów luminancji i saturacji wyznaczanymi dla kilku pasm osobno w skali logarytmicznej (np. dla luminancji: najbardziej dominujące kolory, średnie i cienie). W artykule zawarto wstępne wyniki analizy kolorów na podstawie przetwarzania obrazu uzyskane w wyniku implementacji algorytmu. Pracę kończy podsumowanie i wnioski dotyczące połączenia najbardziej dominujących kolorów w scenach filmowych wraz z psychologią kolorów oraz oddziaływaniem ich na ludzkie emocje.

Słowa kluczowe COLOR GRADING, FILM PRODUCTION, MOOD MODELS, EMOTIONS DETECTION

Projekt badawczy DS

Pozycja nr 41

Typ pozycji: referat konferencyjny

Autorzy D. Weber, B. Kostek

Tytuł angielski A Concept of Automatic Film Color Grading Based on Music Recognition and Evoked Emotions

Konferencja The International Conference on Digital Image & Signal Processing DISP'19

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Oxford, Wielka Brytania

Data konferencji 29.4.2019- 30.4.2019

Abstract The article presents the aspects of the final selection of the color of shots in film production based on the psychology of color. First of all, the elements of color processing, contrast, saturation or white balance in the film shots were presented and the definition of color grading was given. In the second part of the article the analysis of film music was conducted in the context of stimulating appropriate emotions while watching the film. Objective parameters of the color of the shot have been defined as well as low and high-level parameters of the analysis of musical compositions, which will allow to study the mood in the soundtrack. Finally, a concept of color grading system working on machine learning based on emotion detection in the soundtrack was proposed.

Słowa kluczowe COLOR GRADING, MUSIC AND EMOTION RECOGNITION, PERCEPTION, MACHINE LEARNING.

Projekt badawczy DS

Pozycja nr 42

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, K. Mrozik, B. Kostek, A. Czyżewski

Tytuł angielski Automatic Clustering of EEG-Based Data Associated with Brain Activity

Konferencja The 11th edition of International Conference on Multimedia & Network Information Systems MISSI 2018

Numer preprintu

Numer

Wolumin

Strony 470 - 479

Miejsce konferencji Wrocław, Polska

Data konferencji 12.9.2018- 14.9.2018

Identyfikator DOI 10.1007/978-3-319-98678-4_47

Abstract The aim of this paper is to present a system for automatic assigning electroencephalographic (EEG) signals to appropriate classes associated with brain activity. The EEG signals are acquired from a headset consisting of 14 electrodes placed on skull. Data gathered are first processed by the Independent Component Analysis algorithm to obtain estimates of signals generated by primary sources reflecting the activity of the brain. Next, the parameterization process is performed in two ways, i.e. by applying Discrete Wavelet Transform and utilizing an autoencoder network. The resulting sets of parameters are then used for the data clustering and the effectiveness of correct assignment of data into adequate clusters is checked. It occurs that the performance of wavelets- and autoencoders-based parametrization is similar, however in several cases, autoencoders allowed for obtaining a higher mean distance and lower standard deviation than distances provided by the wavelet-based method. Moreover, a supervised classification of signals is performed as a form of benchmarking.

Słowa kluczowe brain activity; data clustering; deep learning; eeg signal; human-computer interaction

Projekt badawczy HCIBRAIN

Pozycja nr 43

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Dorochowicz, P. Hoffmann, A. Majdańczuk, B. Kostek

Tytuł angielski Classification of musical genres by means of listening tests and decision algorithms

Czasopismo Intelligent Methods and Big Data in Industrial Applications

Wolumin

Numer czasopisma

Strony 291 - 305

Rok 2018

Identyfikator DOI 1007/978-3-319-77604-0_21

Abstract The paper compares the results of audio excerpt assignment to a music genre obtained in listening tests and classification by means of decision algorithms. A short review on music description employing music styles and genres is given. Then, assumptions of listening tests to be carried out along with an online survey for assigning audio samples to selected music genres are presented. A framework for music parametrization is created resulting in feature vectors, which are checked for data redundancy. Finally, the effectiveness of the automatic music genre classification employing two decision algorithms is presented. Conclusions contain the results of the comparative analysis of the results obtained in listening tests and automatic genre classification.

Słowa kluczowe music genre classification; feature extraction; listening tests

Pozycja nr 44

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Dorochowicz, B. Kostek

Tytuł angielski A Study on of Music Features Derived from Audio Recordings Examples – a Quantitative Analysis

Czasopismo Archives of Acoustics

Wolumin 43

Numer czasopisma 3

Strony 505 - 516

Rok 2018

Identyfikator DOI 10.24425/123922

Abstract The paper presents a comparative study of music features derived from audio recordings, i.e. the same music pieces but representing different music genres, excerpts performed by different musicians, and songs performed by a musician, whose style evolved over time. Firstly, the origin and the background of the division of music genres were shortly presented. Then, several objective parameters of an audio signal were recalled that have an easy interpretation in the context of perceptual relevance. Within the study parameter values were extracted from music excerpts, gathered and compared to determine to what extent they are similar within the songs of the same performer or samples representing the same piece.

Słowa kluczowe music genres; audio parametrization; music features

Pozycja nr 45

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, B. Kostek

Tytuł polski Detekcja i subiektywna lokalizacja pojazdów na podstawie generowanego hałasu w kontekście bezpieczeństwa pieszych

Konferencja XI Polski Kongres ITS

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 22.5.2018- 23.5.2018

Streszczenie Tematem badań jest subiektywna lokalizacja pojazdów na podstawie generowanego hałasu. Na potrzeby badan zarejestrowano przejazdy kilkunastu pojazdów, wyselekcjonowano nagrania w których przeważał hałas silnika. Następnie z wykorzystaniem funkcji HRTF (Head-Related Transform Function - funkcje opisujące wpływ filtracji słowy, małżowin usznych oraz tułowia na postrzeganie na detekcje źródła dźwięku) przygotowano testowe nagrania dla zadanych kątów w płaszczyźnie poziomej. Przeprowadzono serie testów subiektywnych w których słuchacze mieli za zadanie wyznaczyć percypowaną lokalizacje pojazdu. Wyniki z testów subiektywnych zestawiono z obiektywnymi miarami oceny jakości dźwięku.

Słowa kluczowe HRTF, MOTOCYKLE, NOISE, SAFETY

Projekt badawczy INPREDO

Pozycja nr 46

Typ pozycji: referat konferencyjny

Autorzy D. Koszewski, B. Kostek

Tytuł angielski Low-level audio descriptors-based analysis of music mixes from different Digital Audio Workstations - case study

Konferencja IEEE SPA 2018

Numer preprintu

Numer

Wolumin

Strony 213 - 217

Miejsce konferencji Poznan, Polska

Data konferencji 19.9.2018- 21.9.2018

Uwagi ISBN: 978-83-62065-31-8

Abstract The aim of this paper is two-fold. Firstly, we attempt to check whether objective, low-level audio descriptors may serve as a comparison tool in music mix evaluation performed using different Digital Audio Workstations (DAWs). Secondly, we seek to answer whether differences in music mixes are objectively discernible when several sound processing engines of DAWs are used. The same tracks of a song exported from different Digital Audio Workstations constitute the basis for this research study. Several song mixes are built of 24 individual tracks with no added effects, employing both commercial and non-commercial DAWs. For the purposes of the experiment a reference signal has also been generated using Matlab. Then, a set of time- and frequency-domain audio descriptors is calculated to find similarities and differences between the music mixes. Informal listening tests are conducted to answer to what extent experts are able to evaluate differences in these mixes. Then data are analyzed to show that in most cases very similar results are obtained regardless of the DAW employed.

Słowa kluczowe AUDIO DESCRIPTORS, AUTOMATIC MIXING, DIGITAL AUDIO WORKSTATION, SIGNAL PROCESSING

Pozycja nr 47

Typ pozycji: referat konferencyjny

Autorzy Sz Zaporowski, B. Kostek, J. Gołębiewska, J. Piltz

Tytuł angielski Audio-visual aspect of Lombard effect and comparison with recordings depicting emotional states.

Konferencja SPA 2018 Signal Processing Algorithms, Architectures, Arrangements and Applications

Numer preprintu

Numer

Wolumin

Strony 104 - 107

Miejsce konferencji Poznań, Polska

Data konferencji 19.9.2018- 21.9.2018

Uwagi partially ALOFON

Abstract In this paper an analysis of audio-visual recordings of the Lombard effect is shown. First, audio signal is analyzed indicating the presence of this phenomenon in the recorded sessions. The principal aim, however, was to discuss problems related to extracting differences caused by the Lombard effect, present in the video , i.e. visible as tension and work of facial muscles aligned to an increase in the intensity of the articulated speech signal. Also the database of recordings, available on the internet, depicting emotional states was analyzed in order to compare and find a visual similarity between the Lombard effect and sentiment contained in speech. The results presented are discussed and further plans are depicted.

Słowa kluczowe AUDIO PROCESSING, IMAGE PROCESSING, LOMBARD EFFECT, PSYCHACOUSTICS

Projekt badawczy ALOFON

Pozycja nr 48

Typ pozycji: referat konferencyjny

Autorzy M. Piotrowska, G. Korvel, A. Kurowski, B. Kostek, A. Czyżewski

Tytuł angielski Machine Learning Applied to Aspirated and Non-Aspirated Allophone Classification—An Approach Based on Audio "Fingerprinting"

Konferencja 145 Audio Engineering Society Convention

Numer preprintu 10070

Numer

Wolumin

Strony

Miejsce konferencji New York, USA

Data konferencji 17.10.2018- 20.10.2018

Abstract The purpose of this study is to involve both Convolutional Neural Networks and a typical learning algorithm in the allophone classification process. A list of words including aspirated and non-aspirated allophones pronounced by native and non-native English speakers is recorded and then edited and analyzed. Allophones extracted from English speakers’ recordings are presented in the form of two-dimensional spectrogram images and used as input to train the Convolutional Neural Networks. Various settings of the spectral representation are analyzed to determine adequate option for the allophone classification. Then, testing is performed on the basis of non-native speakers’ utterances. The same approach is repeated employing learning algorithm but based on feature vectors. The archived classification results are promising as high accuracy is observed.

Słowa kluczowe speech recognition, allophone, phonology, foreign language, audio features

Projekt badawczy ALOFON

Pozycja nr 49

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski In Memoriam Professors Marianna Sankiewicz-Budzyński and Gustaw K.E. Budzyński - Founders of the Polish Audio Engineering

Tytuł polski Wspomnienie o prof. M. Sankiewicz i G. Budzyńskim

Czasopismo Archives of Acoustics

Wolumin 43

Numer czasopisma 3

Strony 353 - 355

Rok 2018

Identyfikator DOI 10.24425/123907

Abstract Biography and scientific achievements of Professors Marianna Sankiewicz-Budzyński and Gustaw K.E. Budzyński - Founders of the Polish Audio Engineering.

Streszczenie Przedmiotem artykułu jest wspomnienie dorobku prof. M. Sankiewicz i G. Budzyńskiego, którzy byli fundatorami kierunku inżyniera dźwięku w Polsce.

Słowa kluczowe biografia, inżynieria dźwięku

Projekt badawczy DS

Pozycja nr 50

Typ pozycji: referat konferencyjny

Autorzy Sz Zaporowski, B. Kostek

Tytuł angielski SPEECH SYNTHESIS WITH EMOTION EMPLOYING NEURAL NETWORKS

Tytuł polski WYKORZYSTANIE SIECI NEURONOWYCH DO SYNTEZY MOWY WYRAŻAJĄCEJ EMOCJE

Konferencja XVII Międzynarodowe Sympozjum Nowości w Technice Audio i Wideo

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Poznań, Polska

Data konferencji 11.10.2018- 12.10.2018

Uwagi referat i plakat

Abstract The following paper presents the analysis of solutions for the recognition of emotions based on speech and the possibility of their use in the synthesis of speech with emotion, using neural networks for this purpose. Current solutions regarding the recognition of emotions in speech and methods of speech synthesis using neural networks have been presented. At present, there is a significant increase in the interest and use of deep learning in the applications related to speech signal processing. However, it has not been possible to perfectly match the emotions in the human voice using these methods. Authors, reviewing available technologies, suggest possible solutions to this problem. The proposed solutions include the use of reinforced learning or the application of emotional contours extracted from previously recorded statements to neutral expressions.

Streszczenie W niniejszym artykule przedstawiono analizę rozwiązań do rozpoznawania emocji opartych na mowie i możliwości ich wykorzystania w syntezie mowy z emocjami, wykorzystując do tego celu sieci neuronowe. Przedstawiono aktualne rozwiązania dotyczące rozpoznawania emocji w mowie i metod syntezy mowy za pomocą sieci neuronowych. Obecnie obserwuje się znaczny wzrost zainteresowania i wykorzystania uczenia głębokiego w aplikacjach związanych z przetwarzaniem sygnału mowy. Jednak do tej pory nie udało się idealnie syntezować emocji w ludzkim głosie za pomocą tych metod. Autorzy, dokonując przeglądu dostępnych technologii, sugerują możliwe rozwiązania tego problemu. Proponowane rozwiązania obejmują zastosowanie uczenia wzmocnionego lub zastosowanie konturu emocjonalnego wytłoczonego z wcześniej zapisanych wypowiedzi do neutralnych wyrażeń.

Słowa kluczowe SYNTEZA MOWY, UCZENIE MASZYNOWE, DETEKCJA EMOCJI

Pozycja nr 51

Typ pozycji: książka

Autorzy M. Hoppe, B. Kostek

Tytuł angielski SIMULATION OF SURROUND SOUND IN HEADPHONE PLAYBACK APPLIED TO SHORT FILM SOUNDTRACK

Tytuł polski SYMULACJA DŹWIĘKU PRZESTRZENNEGO W ŚCIEŻCE DŹWIĘKOWEJ W ODSŁUCHU BINAURALNYM

Wydawca Polska Sekcja Audio Engineering Society

Strony 103 - 113

Rok 2018

Uwagi książka wydana w 2018 r., ISBN: 978-83-946985-2-2, Redaktorzy: Stefan Brachmański, Andrzej Miśkiewicz, Przemysław Plaskota

Abstract rozdział w książce: Aspekty komputerowej inżynierii dźwięku. Od metafory do standaryzacji.

Streszczenie Celem pracy jest przedstawienie aplikacji umożliwiającej tworzenie stereofonicznej ścieżki dźwiękowej do filmu, symulującej dźwięk przestrzenny w odsłuchu słuchawkowym. Interfejs przygotowanej aplikacji pozwala użytkownikowi na wybór rozmieszczenia konkretnych partii instrumentalnych w odpowiednich miejscach w przestrzeni dźwiękowej oraz jednoczesny odsłuch wszystkich ścieżek wraz z przygotowanym materiałem filmowym. Symulacja obejmuje dwa systemy odsłuchowe: system kwadrofoniczny oraz system 5.1. W symulacji dźwięku wielokanałowego wykorzystano filtrację HRTF (ang. Head-Related-Transfer-Function). Aplikacja została skonstruowana w taki sposób, aby użytkownik mógł porównać kwadrofoniczny oraz system 5.1 przy takim samym rozmieszczeniu instrumentów, a następnie dokonać zmiany rozmieszczenia instrumentów i ponowny odsłuch. Dodano także możliwość odsłuchu ścieżki dźwiękowej w systemie stereofonicznym. W tej wersji ścieżka dźwiękowa stanowi downmix wszystkich partii instrumentalnych do dwóch kanałów. Na potrzeby ścieżki dźwiękowej został także przygotowany krótki film. W ramach badań zostały przeprowadzone dwie serie testów odsłuchowych. Pierwsza seria testów polegała na ocenie powyższych systemów w kontekście określonych parametrów. Druga seria testów - przeprowadzona dla systemów 5.1 i kwadrofonii - miała na celu określenie, w jakim stopniu poszczególne partie instrumentalne są poprawnie lokalizowane w przestrzeni.

Słowa kluczowe dźwięk przestrzenny, dźwięk binauralny, 3 rys., 1 tab., 18 poz. bibliografii

Projekt badawczy DS

Pozycja nr 52

Typ pozycji: referat konferencyjny

Autorzy M. Blaszke, B. Kostek

Tytuł angielski Support Vector Machine Applied to Road Traffic Event Classification

Konferencja XII MIĘDZYNARODOWA KONFERENCJA BEZPIECZEŃSTWA RUCHU DROGOWEGO GAMBIT 2018

Numer preprintu

Numer 04001

Wolumin 231

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 12.4.2018- 13.4.2018

Identyfikator DOI https://doi.org/10.1051/matecconf/201823104001

Uwagi 10.1051/matecconf/201823104001, częsciowo DS

Abstract The aim of this paper is to present results of road traffic event signal recognition. First, several types of systems for road traffic monitoring, including Intelligent Transport System (ITS) are shortly described. Then, assumptions of creating a database of vehicle signals recorded in different weather and road conditions are outlined. Registered signals were edited as single vehicle pass by. Using the Matlab-based application a feature vector containing 48 parameters was extracted and analyzed in the context of parameter separability and classification effectiveness employing SVM (Support Vector Machine) algorithm. In conclusion, the classifier developed and its effectiveness were discussed.

Słowa kluczowe ACOUSTICS, ROAD DETECTION, ROAD TRAFFIC NOISE

Projekt badawczy INPREDO

Pozycja nr 53

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Korvel, B. Kostek, O. Kurasova

Tytuł angielski Comparative analysis of various transformation techniques for voiceless consonants modeling

Tytuł polski Zastosowanie algorytmów uczenia maszynowego do modelowania fonemów z wykorzystaniem różnych metod parametryzacji

Czasopismo International Journal of Computers, Communications and Control

Wolumin 13

Numer czasopisma 5

Strony 853 - 864

Rok 2018

Uwagi Open Access, czasopismo ISI, http://univagora.ro/jour/index.php/ijccc/article/view/3310/pdf

Abstract In this paper, a comparison of various transformation techniques, namely Discrete Fourier Transform (DFT), Discrete Cosine Transform (DCT) and Discrete Walsh Hadamard Transform (DWHT) are performed in the context of their application to voiceless consonant modeling. Speech features based on these transformation techniques are extracted. These features are mean and derivative values of cepstrum coefficients, derived from each transformation. Feature extraction is performed on the speech signal divided into short-time segments. The kNN and Naive Bayes methods are used for phoneme classification. We consider both classfication accuracies and computational time. Experiments show that DFT and DCT give better classification accuracy than DWHT. The result of DFT was not significantly different from DCT, but it was for DWHT. The same tendency was revealed for DCT. It was checked with the usage of the ANOVA test that the difference between results obtained by DCT and DWHT is significant.

Streszczenie W pracy wykorzystano transformację Fouriera, dyskretną transformację kosinusową oraz dyskretną transformację Walsh-Hadamarda w modelowaniu spółgłosek. Następnie uzyskane głoski sparametryzowano i sprawdzano efektywność zaproponowanego modelu za pomocą uczenia maszynowego. W tym celu zastosowano naiwny klasyfikator Bayesowski oraz maszynę wektorów nośnych. Otrzymaną skuteczność zweryfikowano za pomocą testu statystycznego ANOVA.

Słowa kluczowe transformacja Fouriera, dyskretna transformacja kosinusowa, dyskretna transformacja Walsh-Hadamarda

Projekt badawczy DS

Pozycja nr 54

Typ pozycji: książka

Autorzy T. Poremski, P. Szymański, B. Kostek

Tytuł angielski EFFECTIVENESS EVALUATION METHOD OF SHORT-TERM APPLICATION OF HEARING AIDS EMPLOYING THE WEB-BASED SURVEY

Tytuł polski METODA OCENY EFEKTYWNOŚCI KRÓTKOTERMINOWEGO STOSOWANIA APARATÓW SŁUCHOWYCH Z WYKORZYSTANIEM APLIKACJI INTERNETOWEJ

Wydawca Polska Sekcja Audio Engineering Society

Strony 115 - 128

Rok 2018

Uwagi książka wydana w 2019 r., ISBN: 978-83-946985-2-2, Redaktorzy: Stefan Brachmański, Andrzej Miśkiewicz, Przemysław Plaskota

Abstract rozdział w książce: Aspekty komputerowej inżynierii dźwięku. Od metafory do standaryzacji.

Streszczenie W pracy przedstawiono opracowanie metody oceny efektywności protezowania osób niedosłyszących aparatami słuchowymi. Metoda polega na badaniu ankietowym opartym na kwestionariuszu oceny APHAB uzupełnionym testem rozumienia słów jednosylabowych w polu swobodnym. Uwzględniono dodatkowe kryteria, takie jak: stopień ubytku słuchu, pomiar liczby dni i godzin korzystania z aparatów słuchowych oraz doświadczenia pacjenta. Metoda została opracowana w celu umożliwienia skutecznego pomiaru dużej grupy osób badanych w całym kraju. Przygotowano i opracowano internetową aplikację, umożliwiającą przeprowadzenie badania z dowolnego komputera z dostępem do sieci. Zakres badań i pomiarów został wybrany w taki sposób, aby można było wykorzystać istniejące zasoby personalne oraz typowe wyposażenie audiologiczne punktów protetycznych. W opracowaniu uwzględniono specyfikę badanych, pośród których dużą grupę stanowią osoby w podeszłym wieku. Metoda bierze zatem pod uwagę ich zdolności percepcyjne oraz charakterystykę najczęściej występującego otoczenia akustycznego tych osób. W pracy zawarto przegląd istniejących metod oceny efektywności i skuteczności protezowania aparatami słuchowymi, przyjętą metodologię badania oraz wnioski.

Słowa kluczowe protezowanie osób niedosłyszących, aparat słuchowy,kwestionariuszu oceny APHAB ( Abbreviated Profile of Hearing Aid Benefit); tab. 4, rys. 1, 41 poz. bibl.

Projekt badawczy DS

Pozycja nr 55

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Korvel, P. TREIGYS, G. TAMULEVIČIUS, J. BERNATAVIČIENĖ, B. Kostek

Tytuł angielski Analysis of 2D Feature Spaces for Deep Learning-based Speech Recognition

Czasopismo J. Audio Eng. Soc.

Wolumin 66

Numer czasopisma

Strony 1072 - 1081

Rok 2018

Identyfikator DOI https://doi.org/10.17743/jaes.2018.0066

Uwagi projekt częsciowo ALOFON, częściowo DS

Abstract The aim of the presented study was to evaluate the suitability of 2D audio signal feature maps for speech recognition based on deep learning. The proposed methodology employs a convolutional neural network (CNN) which is a class of deep, feed-forward artificial neural network. We decided to analyze audio signal feature maps, namely spectrograms, linear and Mel-scale cepstrograms, and chromagrams. The choice was made upon the fact that CNN performs well in 2D data-oriented processing contexts. Feature maps were employed in the Lithuanian word recognition task. The spectral analysis led to the highest word recognition rate. Spectral and mel-scale cepstral feature spaces outperform linear cepstra and chroma. The 111-word classification experiment depicts f1 score of 0.99 for spectrum, 0.91 for mel-scale cepstrum , 0.76 for chromagram, and 0.64 for cepstrum feature space on test data set.

Streszczenie Celem pracy było wykorzystanie sieci splotowych convolutional neural network - CNN)) do analizy mowy. Wykorzystano różne reprezentacje sygnału mowy: spektrogram, cepstrogram, chromagram i różne warunki uczenia. Zbadano, że algorytm uzyskał największą skuteczność w połączeniu ze spektrogramem, podawaną na wejście CNN jako mapa 2D.

Słowa kluczowe 2D space feature, speech analysis, deep learning, spectrogram, cepstrogram, chromagram

Projekt badawczy ALOFON

Pozycja nr 56

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, A. Kurowski, P. Odya, B. Kostek

Tytuł polski Dokumentacja prac wykonanych przez zespół LAF w ramach zadania 2

Numer raportu P-INSPACE-04-07-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 2, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadań 2a, 2b i 2c.

Projekt badawczy INSPACE

Pozycja nr 57

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, A. Kurowski, P. Odya, B. Kostek

Tytuł polski Dokumentacja prac wykonanych przez zespół LAF w ramach zadania 3

Numer raportu P-INSPACE-08-10-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 3, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadań 3a i 3b.

Projekt badawczy INSPACE

Pozycja nr 58

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, A. Kurowski, B. Kostek

Tytuł polski Projekt algorytmów nadążnej filtracji adaptacyjnej sygnału mowy

Numer raportu P-INSPACE-05-07-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 3, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadania 3a. Dla łatwiejszej oceny niniejszego raportu przywołano uzgodnioną treść zadania 3a: Projekt algorytmów nadążnej filtracji adaptacyjnej sygnału mowy: schemat blokowy + algorytm w Matlabie + opis matematyczny, odniesienie do skali docelowej, określenie warunków brzegowych (jakie są ograniczenia), weryfikacja i uzasadnienie zapotrzebowania na moc obliczeniową/zasoby pamięci - potwierdzenie poprawności wyboru platformy DSP z pkt 1a. (raport, prezentacja seminaryjna, dokumentacja algorytmu).

Projekt badawczy INSPACE

Pozycja nr 59

Typ pozycji: raport

Autorzy J. Kotus, P. Szczuko, A. Kurowski, B. Kostek

Tytuł polski Analiza nagrań i wyników pomiarów wykonanych w wybranych obiektach wyposażonych w DSO

Numer raportu P-INSPACE-24-06-2018

Rok 2018

Streszczenie W niniejszym dokumencie przedstawiono opis przeprowadzonych analiz dla nagrań i wyników pomiarów pozyskanych w wybranych obiektach wyposażonych w instalację rozgłoszeniową. Niniejszy raport dokumentuje prace wykonane w ramach realizacji podzadania 2c - Analiza badawcza nagrań i wyników pomiarów, określenie listy typowych zakłóceń i zniekształceń występujących w zgromadzonym materiale dla danego źródła (rodzaju urządzenia, otoczenia), stworzenie domyślnych profili przetwarzania dla określonych klas sygnałów. (raport, prezentacja, materiał do wspólnej publikacji), ujętych w Harmonogramie rzeczowo-finansowym PG.

Projekt badawczy INSPACE

Pozycja nr 60

Typ pozycji: artykuł w czasopiśmie

Autorzy W. Paszkowski, J. Kotus, T. Poremski, B. Kostek

Tytuł angielski EVALUATION OF SOUND QUALITY FEATURES ON ENVIRONMENTAL NOISE EFFECTS – A CASE STUDY APPLIED TO ROAD TRAFFIC NOISE

Czasopismo Metrology and Measurement Systems

Wolumin 25

Numer czasopisma 3

Strony 517 - 531

Rok 2018

Identyfikator DOI 10.24425/123901

Uwagi częściowo OT4- 4B/AGH-PG-WSTKT

Abstract The paper shows a study on the relationship between noise measures and sound quality (SQ) features that are related to annoyance caused by the traffic noise. First, a methodology to perform analyses related to the traffic noise annoyance is described including references to parameters of the assessment of road noise sources. Next, the measurement setup, location and results are presented along with the derived sound quality features. Then, statistical analyses are performed to compare the measurement results and sound quality features. The included conclusions are focused on showing that the obtained loudness values, regardless of the used system, are similar in a statistical sense. Contrarily, sharpness, roughness and fluctuation strength values differ for the tools employed.

Słowa kluczowe ANNOYANCE, SOUND QUALITY, TRAFFIC NOISE

Projekt badawczy INZNAK

Pozycja nr 61

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Towards Audio Signal Equalization Based on Spectral Characteristics of a Listening Room and Music Content Reproduced

Konferencja 2018 Joint Conference - Acoustics

Numer preprintu

Numer

Wolumin

Strony 1 - 9

Miejsce konferencji Ustka, Polska

Data konferencji 11.9.2018- 14.9.2018

Identyfikator DOI 10.1109/ACOUSTICS.2018.8502216

Numer pozycji bibl. 14

Uwagi referat indeksowany w IEEE, Scopus, WoS

Abstract This study presents investigations of the influence of the room acoustics on the frequency characteristic of the audio signal playback. First, the concept of a novel spectral equalization method of the room acoustic conditions is introduced. On the basis of the room spectral response, a system for room acoustics compensation based on an equalizer designed is proposed. The system settings depend on music genre recognized automatically. In order to acquire room acoustic characteristics, a series of measurements are performed. The impact of the enclosure on particular music genre spectral characteristics has also been presented. In the analyses a comparison of spectral characteristics obtained with pink noise and music genres as measurement signals is presented.

Słowa kluczowe EQUALIZATION , IMPULSE RESPONSE , MUSIC CONTENT , SMART AUDIO

Projekt badawczy DS

Pozycja nr 62

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, B. Kostek

Tytuł polski Opracowanie oprogramowania symulacyjnego w środowisku Matlab na potrzeby testowania algorytmów nadążnej filtracji adaptacyjnej sygnału mowy

Numer raportu P-INSPACE-06-09-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 3, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadania 3b. Dla łatwiejszej oceny niniejszego raportu przywołano uzgodnioną treść zadania 3b: Opracowanie oprogramowania symulacyjnego w środowisku Matlab, przeprowadzenie badań w warunkach laboratoryjnych przy użyciu środowiska MatLab, określenie metod pomiaru współczynnika STI dostosowanych do wprowadzanych przez algorytmy modyfikacji sygnału. Wyznaczenie miar poprzez wykorzystanie metryk obiektywnych niezbędnych w dalszym etapie badań do określenia punktu odniesienia przy dalszych testach algorytmów poprawy jakości sygnałów. (dokumentacja oprogramowania).

Projekt badawczy INSPACE

Pozycja nr 63

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Mróz, B. Kostek

Tytuł angielski Externalisation in binaural ambisonic auralization of directional sources

Tytuł polski Eksternalizacja w binauralnej ambisonicznej auralizacji źródeł kierunkowych

Czasopismo Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

Wolumin

Numer czasopisma 60

Strony 75 - 80

Rok 2018

Identyfikator DOI 10.32016/1.60.15

Abstract The article presents the most important components of the process of effectively rendering a three-dimensional sound image using headphones. To this end, the impact of a set of factors affecting sound externalisation is examined: head tracking, individual head transfer functions (HRTF – Head Related Transfer Function, related to the mathematical function of sound propagation around the head), room model, as well as a so-called room divergence effect and individual headphone alignment. Furthermore, the directivity aspect of the sound source is discussed as a convenient way to control Direct-toReverberant ratio and thus provides a robust control of the auditory distance. The results obtained indicate that the tracking of the head position as well as the individual functions of the head transfer are crucial for faithful sound reproduction. The conducted research also shows that the effect of room compliance and headphone alignment prove to be significant factors throughout the auralisation process.

Streszczenie W artykule przedstawiono najważniejsze składniki procesu skutecznego renderowania trójwymiarowego obrazu dźwiękowego za pomocą słuchawek. W tym celu badany jest stopień oddziaływania poszczególnych czynników wpływających na eksternalizację dźwięku: śledzenie położenia głowy (ang. head tracking), indywidualne funkcje przenoszenia głowy (HRTF – Head Related Transfer Function, odnoszące się do matematycznej funkcji propagacji dźwięku wokół głowy), model pomieszczenia, jak również tzw. efekt zgodności pomieszczenia oraz indywidualne wyrównywanie charakterystyki przenoszenia słuchawek. Uzyskane wyniki wskazują, że śledzenie głowy, a także indywidualne funkcje przenoszenia głowy mają kluczowe znaczenie dla wiernej reprodukcji dźwięku. Z przeprowadzonych badań wynika również, że efekt zgodności pomieszczenia i wyrównywanie charakterystyki przenoszenia słuchawek są znaczącymi elementami procesu auralizacji.

Słowa kluczowe ambisonia, eksternalizacja, technologia binauralna, auralizacja

Pozycja nr 64

Typ pozycji: referat konferencyjny

Autorzy K. Kąkol, G. Korvel, B. Kostek

Tytuł angielski Analysis of Lombard speech using parameterization and the objective quality indicators in noise conditions

Tytuł polski Parametryzacja sygnału mowy z efektem Lombarda

Konferencja 10th International Workshop "Data analysis methods for software systems", DAMSS 2018 – DAMSS 2018

Numer preprintu

Numer

Wolumin

Strony 35 - 36

Miejsce konferencji

Data konferencji 29.11.2018- 1.12.2018

Identyfikator DOI Proc. DAMSS 2018: DOI: https://doi.org/10.15388/DAMSS.2018.1

Uwagi ISBN: 978-609-07-0043-3

Abstract The aim of the work is to analyze Lombard speech effect in recordings and then modify the speech signal in order to obtain an increase in the improvement of objective speech quality indicators after mixing the useful signal with noise or with an interfering signal. The modifications made to the signal are based on the characteristics of the Lombard speech, and in particular on the effect of increasing the fundamental frequency F0. The recording session includes sets of words and sentences in Polish, recorded in silence, as well as in the presence of interfering signals, i.e. pink noise and so-called bustle (called babble speech), also referred to as the “cocktail-party” effect. Research on the Lombard speech often focuses on subjective studies of speech intelligibility. There are, however, objective indicators such as PESQ (Perceptual Evaluation of Speech Quality) and P.563, which are used in studies of quality of telecommunication channels. The study shows that increasing the fundamental frequency results in increased values of the speech quality index, measured using the PESQ (Perceptual Evaluation of Speech Quality) standard. The research carried out consists of several stages: (1) recording speech samples (words and sentences) without and in the presence of pink noise and babble speech (the so-called cocktail party effect), i.e. the reference signal (“clean” speech), and then recording the same words/sentences in the presence of additional disturbances forcing the Lombard effect in speech recordings to occur; (2) analyzing differences between “clean” speech and the Lombard speech based on objective audio parameters; (3) mixing speech recordings with pink noise with a different signal to 36 10th International Workshop on noise ratio (SNR) in order to measure PESQ MOS coefficients; (4) measuring the PESQ coefficients of the reference files (“clean speech”) that are processed by increasing the F0 value and sound intensity level, and then the same files mixed with pink noise and babble speech interfering signals; (5) repeating step (2), i.e. analyzing the difference in objective parameters and indicating whether these differences are statistically significant.

Streszczenie Celem referatu była analiza sygnału mowy z nagrań, w których rejestrowany był efekt Lombarda. W kolejnym kroku badano cechy wypowiedzi nagranych w warunkach hałasu. Następnie modyfikowano sygnał z uwzględnieniem cech charakterystycznych dla mowy z efektem Lombarda w celu poprawy jakości mowy.

Słowa kluczowe efekt Lombarda, analiza sygnału mowy

Projekt badawczy DS

Pozycja nr 65

Typ pozycji: referat konferencyjny

Autorzy G. Korvel, G. Tamulevičius, P. Treigys, J. Bernatavičienė, B. Kostek

Tytuł angielski Investigating Feature Spaces for Isolated Word Recognition

Tytuł polski Badania przestrzeni parametrów sygnału mowy w celu rozpoznawania izolowanych wyrazów

Konferencja 10th International Workshop "Data analysis methods for software systems", DAMSS 2018 – DAMSS 2018

Numer preprintu

Numer

Wolumin

Strony 47 - 47

Miejsce konferencji Druskininkai, Lithuania

Data konferencji 29.11.2018- 1.12.2018

Identyfikator DOI Proc. DAMSS 2018: DOI: https://doi.org/10.15388/DAMSS.2018.1

Uwagi ISBN: 978-609-07-0043-3

Abstract Much attention is given by researchers to the speech processing task in automatic speech recognition (ASR) over the past decades. The study addresses the issue related to the investigation of the appropriateness of a two-dimensional representation of speech feature spaces for speech recognition tasks based on deep learning techniques. The approach combines Convolutional Neural Networks (CNNs) and timefrequency signal representation converted to the investigative feature spaces. In particular, fractal dimension features of the signal were chosen for the time domain, and two feature spaces were investigated for the frequency domain, namely: frequency tracks obtained from the frequencies and amplitudes of the detected spectral peaks and the modified chromagrams. Both are constructed from a series of short-time Fourier transforms, which were computed along the window speech signal in the time domain. Due to the fact that deep learning requires a sufficiently large training set as the size of the corpus may significantly influence the outcome, thus for the data augmentation purpose, the created dataset was extended by adding various noise levels and mixed with the speech signal. In order to evaluate the applicability of implemented feature spaces for isolated word recognition task, three experiments were conducted: a 10-word, a 70-word, and a 111-word cases were analyzed.

Streszczenie W pracy przedstawiono badania przestrzeni parametrów sygnału mowy w celu automatycznego rozpoznawania (ASR - automatic speech recognition) izolowanych wyrazów. W klasyfikacji wykorzystano sieci splotowe oraz reprezentacje sygnałou mowy: spektrogramy oraz chromagramy.

Słowa kluczowe automatyczne rozpoznawanie mowy, splotowe sieci, głębokie uczenie, chromagramy, wymiar fraktalny

Projekt badawczy DS

Pozycja nr 66

Typ pozycji: artykuł w czasopiśmie

Autorzy T. Poremski, P. Szymański, B. Kostek

Tytuł polski Aparat słuchowy a alternatywne urządzenia poprawiające słyszenie

Czasopismo Otorynolaryngologia

Wolumin 17

Numer czasopisma 2

Strony 49 - 56

Rok 2018

Uwagi Open Access: http://www.otorynolaryngologia-pk.pl/f/file/orl-18-2-a1-poremski.pdf

Streszczenie W opracowaniu dokonano przeglądu dostępnych prac dotyczących różnych rodzajów urządzeń poprawiających słyszenie, które w szczególnych przypadkach mogą być traktowane jako rozwiązania alternatywne w stosunku do klasycznych aparatów słuchowych. Praca zawiera dyskusję na temat nowego rodzaju aparatu słuchowego wstępnie zaprogramowanego, który może być dystrybuowany korespondencyjnie lub bezpośrednio potencjalnym użytkownikom. Ponadto zawarto opis tzw. „personalnych” wzmacniaczy dźwięku ze szczególnym uwzględnieniem tzw. wzmacniaczy słuchu, które co do zasady są przeznaczone dla osób ze słuchem normalnym. Podano cechy poszczególnych rozwiązań oraz możliwe zastosowania. Analiza dostępnych opracowań w tym zakresie pokazuje dużą różnorodność rozwiązań, a co za tym idzie brak jednoznacznych kryteriów, dzięki którym można by dokonać łatwej i obiektywnej oceny urządzeń między sobą czy też porównać je z klasycznymi aparatami słuchowymi. Na podstawie przedstawionej pracy można sfomułować następujące wnioski: wzmacniacze słuchu nie powinny być stosowane w przypadku niedosłuchów odbiorczych czuciowo-nerwowych z uwagi na brak możliwości właściwego dostosowania parametrów akustycznych takiego wzmacniacza do specyficznej charakterystyki niedosłuchu. Wysoki poziom ciśnienia akustycznego, jaki mogą one generować może pogłębiać wadę słuchu. Aparaty słuchowe wstępnie zaprogramowane mogą stanowić alternatywę dla klasycznych aparatów, choć wyniki badań pokazują, że uzyskiwane efekty, w szczególności w rozumieniu mowy, są słabsze. Kluczową rolę w poprawie możliwości uzyskania bardziej efektywnych wyników w przypadku niedosłuchu odbiorczego pełni audiolog lub protetyk słuchu.

Słowa kluczowe aparaty słuchowe, alternatywne urządzenia poprawiające słuch, aparaty słuchowe wstępnie zaprogramowane (OTC, Over-the-Counter)

Projekt badawczy DS

Pozycja nr 67

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Listening to Live Music: Life beyond Music Recommendation Systems

Tytuł polski Muzyczne systemy społecznościowe - co dalej?

Konferencja 2018 Joint Conference - Acoustics, Acoustics 2018

Numer preprintu

Numer

Wolumin

Strony 134 - 139

Miejsce konferencji Ustka, PL

Data konferencji 11.9.2018- 14.9.2018

Identyfikator DOI DOI: 10.1109/ACOUSTICS.2018.8502385

Uwagi Article number 8502385, referat w bazach IEEE, SCOPUS i WoS

Abstract This paper presents first a short review on music recommendation systems based on social collaborative filtering. A dictionary of terms related to music recommendation systems, such as music information retrieval (MIR), Query-by-Example (QBE), Query-by-Category (QBC), music content, music annotating, music tagging, bridging the semantic gap in music domain, etc. is introduced. Bases of music recommender systems are shortly presented, including the mechanisms underlying these systems. Also, usage of machine learning versus statistics is discussed with regard to the recommender systems working. Moreover, listening to music through players implemented on computers or mobile devices as opposed to listening to live music in the context of social and technology implications, i.e. live performance contrasting issues related to music quality. Finally, future directions in the music recommendation area and live music are discussed, including performance on virtual musical instruments.

Streszczenie W pracy przedstawiono słownik pojęć związanych z informatyką muzyczną. Przedstawiono również muzyczne systemy społecznościowe. W podsumowaniu odniesiono się do przyszłych kierunków rozwoju technologii muzycznych, w tym wirtualnych instrumentów muzycznych.

Słowa kluczowe Automatyczne wyszukiwanie muzyki, muzyczne systemy społecznościowe, technologie muzyczne, wirtualne instrumenty muzyczne

Projekt badawczy DS

Pozycja nr 68

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski EDITOR’S NOTE and 2018 REVIEWERS

Tytuł polski Podsumowanie roku 2018 - przegląd artykułów w czasopiśmie JAES

Czasopismo J. Audio Eng. Soc.

Wolumin 66

Numer czasopisma 12

Strony 1004 - 1005

Rok 2018

Streszczenie Przedmiotem pracy jest odniesienie do prac opublikowanych w 2018 roku, jak również do serii artykułów w ramach specjalnego wydania: Special Issue on Augmented and Participatory Sound and Music Interaction Using Semantic Audio.

Słowa kluczowe audio engineering, semantic audio

Projekt badawczy DS

Pozycja nr 69

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, B. Kostek

Tytuł polski Typowanie mikrofonów pomiarowych do zastosowań w innowacyjnym systemie rozgłoszeniowo-komunikacyjnym

Numer raportu P-INSPACE-16-02-2018

Rok 2018

Streszczenie W niniejszym dokumencie przedstawiono wymagania akustyczne dla mikrofonów pomiarowych do zastosowania w systemie DSO oraz wytypowano przykładowe modele mikrofonów do badań. Niniejszy raport dokumentuje część prac wykonanych w ramach realizacji podzadania 1b, ujętych w Harmonogramie rzeczowo-finansowym PG.

Projekt badawczy INSPACE

Pozycja nr 70

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, K. Kąkol

Tytuł angielski Improving the quality of speech in the conditions of noise and interference

Tytuł polski Poprawa jakości mowy w warunkach zakłóceń

Czasopismo J. Acoust. Soc. Amer.

Wolumin 144

Numer czasopisma 3

Strony 1905 - 1905

Rok 2018

Identyfikator DOI https://doi.org/10.1121/1.5068349

Uwagi ASA Meeting, Vancouver 5-9. 11. 2018

Abstract The aim of the work is to present a method of intelligent modification of the speech signal with speech features expressed in noise, based on the Lombard effect. The recordings utilized sets of words and sentences as well as disturbing signals, i.e., pink noise and the so-called babble speech. Noise signal, calibrated to various levels at the speaker's ears, was played over two loudspeakers located 2 m away from the speaker. In addition, the recording session included utterances in quiet, which constitute a reference to the received speech signal analysis with the Lombard effect. As a part of the analysis, the following parameters were examined with regard to prosody: fundamental frequency F0, formant frequencies of F1 and F2, duration of the utterance, sound intensity, etc., taking into account individual sentences, words, and vowels. The PRAAT program was used to process and analyze speech signals. Next, a method for modifying speech with the features of speech spoken in noise was proposed. Subsequent analyzes have shown that noisy speech modified by the Lombard effect features is characterized by higher values of the PESQ (perceptual evaluation of speech quality) speech quality indicator compared to noisy speech without the features incorporated.

Streszczenie W pracy przedstawiono nagrania sygnału mowy w warunkach mowy Lombardzkiej. Analizowano parametry związane z prozodią mowy, np. formanty, długość trwania wypowiedzi, poziom wypowiedzi, itd. Analizy przeprowadzono z wykorzystaniem programu PRAAT. W ocenie jakości wykorzystano miarę PESQ.

Słowa kluczowe sygnał mowy, efekt Lombarda, analiza PESQ

Projekt badawczy DS

Pozycja nr 71

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Szymański, T. Poremski, B. Kostek

Tytuł angielski The influence of time of hearing aid use on auditory perception in various acoustic situations

Tytuł polski Wpływ czasu uzytkowania protezy słuchowej na percepcję dźwięku w różnych warunkach odsłuchowych

Czasopismo J. Acoust. Soc. Amer.

Wolumin 144

Numer czasopisma 3

Strony 1834 - 1835

Rok 2018

Identyfikator DOI https://doi.org/10.1121/1.5068083

Uwagi ASA Meeting, Vancouver 5-9. 11. 2018

Abstract The assessment of sound perception in hearing aids, especially in the context of benefits that a prosthesis can bring, is a complex issue. The objective parameters of the hearing aids can easily be determined. These parameters, however, do not always have a direct and decisive influence on the subjective assessment of quality of the patient’s hearing while using a hearing aid. The paper presents the development of a method for the assessment of auditory perception and the effectiveness of applying hearing aids for hearing-impaired people during a short-term use. The method involves a questionnaire based on the APHA (Abbreviated Profile of Hearing Aid Benefit) assessment questionnaire, a measure of self-reported auditory disability. The study includes additional criteria, such as measuring the number of hours and days of use of hearing aids, the degree of hearing loss and thepatient’s experience. A web-based application is developed to enable to carry out such an examination from any computer with access to the network. The research results show that in the first period of use of hearing aids, speech perception improves, especially in noisy environments. The perception of unpleasant sounds also increases, which leads to deterioration of hearing aid acceptance by their users.

Streszczenie W artykule przedstawiono wpływ czasu użytkowania aparatu słuchowego na percepcję dźwięku. Badania były przeprowadzone w grupie kilkuset osób. W analizie wykorzystano formularz APHAB (Abbreviated Profile of Hearing Aid Benefit) oraz testy statystyczne w celu sprawdzenia efektu użytkowania protezy słuchowej.

Słowa kluczowe percepcja dźwięku, aparaty słuchowe, formularz APHAB (Abbreviated Profile of Hearing Aid Benefit)

Projekt badawczy DS

Pozycja nr 72

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, B. Kostek

Tytuł polski Koncepcja eksperymentalnego testowania algorytmów nadążnej filtracji adaptacyjnej sygnału mowy oraz algorytmów transpozycji czasowej sygnału mowy, dokumentujący prace wykonane przez LAF

Numer raportu P-INSPACE-29-09-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 5, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadania 5a. Dla łatwiejszej oceny niniejszego raportu przywołano uzgodnioną treść zadania 5a: LAF opracuje koncepcję eksperymentu, którego celem będzie udowodnienie możliwości osiągnięcia zdefiniowanych w projekcie kryteriów sukcesu (pierwsza faza eksperymentu). Zestawienie, skonfigurowanie i sprawdzenie aparatury badawczej dla potrzeb prowadzenia eksperymentów (raport) (aparatura wykorzystana do badań zostanie częściowo udostępniona przez ABT-wymaga szczegółowych uzgodnień).

Słowa kluczowe INSPACE, DSO, DCR, STI, zrozumiałość mowy

Projekt badawczy INSPACE

Pozycja nr 73

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, B. Kostek

Tytuł polski Koncepcja DSO wyposażonego w procesor DSP oraz akustyczne sprzężenie zwrotne

Numer raportu P-INSPACE-30-03-2018

Rok 2018

Streszczenie W niniejszym dokumencie przedstawiono koncepcję Dźwiękowego Systemu Ostrzegawczego wyposażonego w procesor DSP oraz akustyczne sprzężenie zwrotne. Koncepcja została wypracowana w toku licznych spotkań roboczych, w których udział brali przedstawiciele podwykonawcy (LAF) oraz osoby oddelegowane przez wykonawcę (firmę Ambient System). Niniejszy raport dokumentuje prace wykonane w ramach realizacji podzadania 1a, ujętych w Harmonogramie rzeczowo-finansowym PG. Ze względu na zakres prac, w które zaangażowany jest podwykonawca, w niniejszym raporcie główny nacisk jest położony na funkcjonalności przewidziane do zrealizowania w oparciu o procesor DSP oraz zestaw mikrofonów pomiarowych oraz na rodzaje i sposoby cyfrowego przetwarzania sygnałów (CPS) akustycznych. Pominięto w niniejszym opracowaniu elementy infrastruktury technicznej DSO, które nie mają bezpośredniego związku z realizacją procedur cyfrowego przetwarzania sygnałów. Opracowanie tych elementów leży w kompetencji wykonawcy projektu – firmy Ambient System.

Projekt badawczy INSPACE

Pozycja nr 74

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, B. Kostek

Tytuł polski Koncepcja eksperymentalnego testowania algorytmów nadążnej filtracji adaptacyjnej sygnału mowy oraz algorytmów transpozycji czasowej sygnału mowy, dokumentujący prace wykonane przez LAF w ramach zadan

Numer raportu P-INSPACE-29-09-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 5, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadania 5a. Dla łatwiejszej oceny niniejszego raportu przywołano uzgodnioną treść zadania 5a: LAF opracuje koncepcję eksperymentu, którego celem będzie udowodnienie możliwości osiągnięcia zdefiniowanych w projekcie kryteriów sukcesu (pierwsza faza eksperymentu). Zestawienie, skonfigurowanie i sprawdzenie aparatury badawczej dla potrzeb prowadzenia eksperymentów (raport) (aparatura wykorzystana do badań zostanie częściowo udostępniona przez ABT-wymaga szczegółowych uzgodnień).

Projekt badawczy INSPACE

Pozycja nr 75

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Rosner, B. Kostek

Tytuł angielski Automatic music genre classification based on musical instrument track separation

Tytuł polski Automatyczna klasyfikacja gatunku muzycznego wykorzystująca algorytm separacji dźwięku instrumentów muzycznych

Czasopismo Journ. of Intelligent Information Systems

Wolumin 50

Numer czasopisma 2

Strony 363 - 384

Rok 2018

Identyfikator DOI 10.1007/s10844-017-0464-5

Uwagi wydanie w czasopiśmie

Abstract The aim of this article is to investigate whether separating music tracks at the pre-processing phase and extending feature vector by parameters related to the specific musical instruments that are characteristic for the given musical genre allow for efficient automatic musical genre classification in case of database containing thousands of music excerpts and a dozen of genres. Results of extensive experiments show that the approach proposed for music genre classification is promising. Overall, conglomerating parameters derived from both an original audio and a mixture of separated tracks improve classification effectiveness measures, demonstrating that the proposed feature vector and the Support Vector Machine (SVM) with Co-training mechanism are applicable to a large dataset.

Streszczenie Celem artykułu było przedstawienie badań pokazujących czy zastosowanie separacji ścieżek muzycznych w fazie wstępnego przetwarzania wspomaga efektywność procesu automatycznego rozpoznawania gatunków muzycznych. W badaniach wykorzystano maszynę wektorów wspierających (SVM) i bazę danych muzycznych zawierającą kilkadziesiąt tysięcy utworów muzycznych.

Słowa kluczowe informatyka muzyczna, wyszukiwanie informacji muzycznej (MIR), maszyna wektorów wspierających (SVM), klasyfikacja gatunków muzycznych,

Projekt badawczy DS

Pozycja nr 76

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Journal of the Audio Engineering Society

Tytuł polski Edytor czasopisma

Czasopismo J. Audio Eng. Soc.

Wolumin 66

Numer czasopisma 1-12

Strony 1 - 1192

Rok 2018

Identyfikator DOI http://www.aes.org/journal/

Uwagi coroczna nominacja na Redaktora naczelnego czasopisma J. Audio Eng. Soc.

Streszczenie Edytor czasopisma, coroczna nominacja na funkcję Redaktora Naczelnego od 2012

Słowa kluczowe Edytor czasopisma J. Audio Eng. Soc.

Projekt badawczy DS

Pozycja nr 77

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Marianna Sankiewicz and Gustaw Budzynski (1921-2018) Obituary

Tytuł polski Wspomnienie o działalności naukowej i organizacyjnej prof. M. Sankiewicz i G. Budzyńskim

Czasopismo J. Audio Eng. Soc.

Wolumin 66

Numer czasopisma 7-8

Strony 644 - 644

Rok 2018

Abstract Organizing the Polish AES Section became real during the session of the National Sound Engineering Symposium held at the Gdansk Technical University in 1991. AES President Tim Shelton came to the Gdansk Symposium and inaugurated the activities of the newly founded PS-AES.

Streszczenie Przedmiotem artykułu są wspomnienia o fundatorach Polskiej Sekcji towarzystwa naukowego Audio Engineering Society.

Słowa kluczowe inżynieria dźwięku, Polska Sekcja - towarzystwo naukowego Audio Engineering Society

Projekt badawczy DS

Pozycja nr 78

Typ pozycji: referat konferencyjny

Autorzy G. Korvel, B. Kostek

Tytuł angielski Examining Feature Vector for Phoneme Recognition

Tytuł polski Analiza parametrów w kontekście automatycznej klasyfikacji fonemów

Konferencja ISSPIT 2017, 17th IEEE International Symposium on Signal Processing and Information Technology

Numer preprintu

Numer

Wolumin

Strony 384 - 398

Miejsce konferencji Bilbao, Hiszpania

Data konferencji 2018

Identyfikator DOI 10.1109/ISSPIT.2017.8388675

Uwagi częściowo Alofon, https://drive.google.com/open?id=1ugidXH_qNO9LRWTnkJU6Mbrk4AfTonGw

Abstract The aim of this paper is to analyze usability of descriptors coming from music information retrieval to the phoneme analysis. The case study presented consists in several steps. First, a short overview of parameters utilized in speech analysis is given. Then, a set of time and frequency domain-based parameters is selected and discussed in the context of stop consonant acoustical characteristics. A toolbox created for this purpose in the Matlab environment is presented. The next analysis step includes the process of selecting the most discriminating descriptors based on Bron Kerbosch algorithm. It is shown that parameters resulted from this analysis can be used for separation of consonants. Finally, phoneme recognition is performed employing k-NN classifier. Keywords: Phoneme analysis, parametrization, phoneme recognition, k-NN classifier

Streszczenie W referacie przedstawiono analizę wybranych parametrów w kontekście automatycznej klasyfikacji fonemów. W tym celu dokonano wyboru deskryptorów ekstrahowanych w dziedzinie czasu i częstotliwości, a następnie uzyskany wektor cech poddano optymalizacji za pomocą algorytmu Brona-Kerboscha. W klasyfikacji przykładowych fonemów wykorzystano algorytm kNN.

Słowa kluczowe Analiza fonematyczna, parametryzacja, klasyfikacja fonemów, algorytm kNN Uwagi: Ta pozycja została afiliowana w bazach i nadano jej numer doi w 2018

Projekt badawczy ALOFON

Pozycja nr 79

Typ pozycji: książka

Autorzy G. Korvel, A. Kurowski, B. Kostek, A. Czyżewski

Tytuł angielski Speech analytics based on machine learning

Tytuł polski Analiza sygnału mowy za pomocą uczenia głębokiego

Wydawca Springer International Publishing AG, part of Springer Nature, tytuł książki: Intelligent Systems Reference Library, vol. 149

Strony 129 - 157

Rok 2018

Uwagi rozdział w książce

Abstract In this chapter, the process of speech data preparation for machine learning is discussed in detail. Examples of speech analytics methods applied to phonemes and allophones are shown. Further, an approach to automatic phoneme recognition involving optimized parametrization and a classifier belonging to machine learning algorithms is discussed. Feature vectors are built on the basis of descriptors coming from the music information retrieval (MIR) domain. Then, phoneme classification beyond the typically used techniques is extended towards exploring Deep Neural Networks (DNNs). This is done by combining Convolutional Neural Networks (CNNs) with audio data converted to the time-frequency space domain (i.e. spectrograms) and then exported as images. In this way a two-dimensional representation of speech feature space is employed. When preparing the phoneme dataset for CNNs, zero padding and interpolation techniques are used. The obtained results show an improvement in classification accuracy in the case of allophones of the phoneme /l/, when CNNs coupled with spectrogram representation are employed. Contrarily, in the case of vowel classification, the results are better for the approach based on pre-selected features and a conventional machine learning algorithm.

Streszczenie Celem badań było wykorzystanie uczenia głębokiego do analizy alofonów i fonemów. W ekstrakcji cech użyto wybrane parametry stosowane w automatycznym wyszukiwaniu muzyki (Music Information Retrieval - MIR). W klasyfikacji wykorzystano zarówno typowe algorytmy uczące, jak również sieci splotowe. Większa efektywność została uzyskana w przypadku zastosowania spektrogramów (jako cech sygnału mowy) oraz uczenia głębokiego.

Słowa kluczowe ALOFON/częściowo DS; automatyczna analiza sygnału mowy, alofon, fonem, algorytmy uczące, uczenie głębokie

Projekt badawczy ALOFON

Pozycja nr 80

Typ pozycji: referat konferencyjny

Autorzy G. Korvel, O. Kurasova, B. Kostek

Tytuł angielski Comparative analysis of spectral and cepstral feature extraction techniques for phoneme modelling

Tytuł polski Porównanie cech mel-cepstralnych i widmowych w modelowaniu fonemów

Konferencja 11th International Conference on Multimedia and Network Information Systems, MISSI 2018

Numer preprintu

Numer

Wolumin 833

Strony 480 - 489

Miejsce konferencji Wrocław, Poand

Data konferencji 12.9.2018- 14.9.2018

Identyfikator DOI 10.1007/978-3-319-98678-4_48

Uwagi Advances in Intelligent Systems and Computing, vol. 833, Editors: Choros K.,Kopel M.,Kukla E.,Sieminski A.

Abstract Phoneme parameter extraction framework based on spectral and cepstral parame-ters is proposed. Using this framework, the phoneme signal is divided into frames and Hamming window is used. The performances are evaluated for recognition of Lithuanian vowel and semivowel phonemes. Different feature sets without noise as well as at different level of noise are considered. Two classical machine learning methods (Naive Bayes and Support Vector Machine) are used for classifying each problem, separately. The experiment results show that cepstral parameters give higher accuracies than spectral parameters. Moreover, cepstral parameters give better performance compared to spectral parameters in noisy conditions.

Streszczenie W pracy porównano efektywność parametryzacji mel-cepstralnej i widmowej w modelowaniu fonemów. W klasyfikacji wykorzystano dwie klasyczne metody uczenia maszynowego:, tj. naiwny klasyfikator Bayesowski (Naive Bayes) i maszynę wektorów nośnych (Support Machine Vector). Wyniki eksperymentów pokazują, że parametry cepstralne dają wyższą skuteczność niż parametry spektralne. Co więcej, parametry cepstralne dają lepszą wydajność w porównaniu do parametrów spektralnych w warunkach szumu.

Słowa kluczowe parametryzacja, ekstrakcja cech, uczenie maszynowe, analiza mowy, fonemy

Projekt badawczy DS

Pozycja nr 81

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, B. Kostek, A. Kurowski, P. Szczuko

Tytuł angielski A Comparison of STI Measured by Direct and Indirect Methods for Interiors Coupled with Sound Reinforcement Systems

Tytuł polski Porównanie wartości wskaźnika STI wyznaczonych za pomocą metody bezpośredniej i pośredniej dla wnętrz wyposażonych w system nagłośnieniowy

Konferencja 2018 Joint Conference - Acoustics

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Polska

Data konferencji 11.9.2018- 14.9.2018

Identyfikator DOI 10.1109/ACOUSTICS.2018.8502277

Abstract This paper presents a comparison of STI (Speech Transmission Index) coefficient measurement results carried out by direct and indirect methods. First, acoustic parameters important in the context of public address and sound reinforcement systems are recalled. A measurement methodology is presented that employs various test signals to determine impulse responses. The process of evaluating sound system performance, signals enabling direct objective measurement of the STI (Speech Transmission Index) coefficient, and in particular the STI-PA (STI for Public Address systems) ratio, are employed in accordance with the measurement standards. Sound systems installed in two acoustic interiors are used in the measurements. A comparison of the results obtained for different length of swept sine stimuli is made that enabled to recommend this test signal as more suitable for interiors coupled with sound reinforcement systems.

Streszczenie W pracy przedstawiono porównanie wyników pomiarów współczynników STI (Speech Transmission Index) przeprowadzonych metodami bezpośrednimi i pośrednimi. Po pierwsze, przywołuje się parametry akustyczne ważne w kontekście systemów nagłośnieniowych i nagłośnieniowych. Przedstawiono metodologię pomiaru, która wykorzystuje różne sygnały testowe do określenia odpowiedzi impulsowych. Proces oceny wydajności systemu dźwiękowego, sygnały umożliwiające bezpośredni obiektywny pomiar współczynnika STI (Speech Transmission Index), w szczególności współczynnika STI-PA (STI dla systemów adresów publicznych), są stosowane zgodnie ze standardami pomiarowymi. W pomiarach zastosowano systemy dźwiękowe zainstalowane w dwóch wnętrzach akustycznych. Uzyskano porównanie wyników otrzymanych dla różnych długości bodźców sinusoidalnych, które umożliwiły zalecenie tego sygnału testowego jako bardziej odpowiedniego dla wnętrz połączonych z systemami nagłośnienia.

Słowa kluczowe MEASUREMENTS, REINFORCEMENT SYSTEMS, SPEECH TRANSMISSION INDEX

Projekt badawczy INSPACE

Pozycja nr 82

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Szymański, T. Poremski, B. Kostek

Tytuł polski ZASTOSOWANIE APLIKACJI INTERNETOWEJ W OCENIE JAKOŚCI DOPASOWANIA APARATÓW SŁUCHOWYCH

Czasopismo Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

Wolumin 60

Numer czasopisma

Strony 121 - 126

Rok 2018

Identyfikator DOI doi: 10.32016/1.60.25

Abstract The study presents application of the web-based application for the assessment of quality of hearing aid fitting. The method consists of a survey supplemented with the test for recognizing the single syllable words under free-field conditions. A web-based application has been developed to allow testing from any computer with the Internet access. The implementation of the method in the form of a web-based application, allows a systematic and organized assessment of the benefits gained from the hearing aid use. The application is an easy-to-use tool that can easily be modified. On the basis of the study performed, it may be observed that in the case of 60% of subjects it was possible to achieve benefit ≥10%, which signifies an effective fitting of the hearing aid. The highest benefit occurs for subjects with grade 2 and 3 of hearing loss according to the WHO scale.

Streszczenie W pracy opisano zastosowanie aplikacji internetowej do oceny jakości dopasowania aparatów słuchowych. Metoda oceny polega na badaniu ankietowym, uzupełnionym testem rozumienia słów jednosylabowych w polu swobodnym. Opisywana aplikacja internetowa pozwala na przeprowadzenie badania z dowolnego komputera z dostępem do sieci. Dzięki implementacji metody w postaci aplikacji internetowej, można w systematyczny i uporządkowany sposób dokonywać oceny korzyści z użytkowania aparatów słuchowych. Daje też możliwość jej rozszerzenia czy modyfikacji. Z przeprowadzonych badań wynika, że ok. 60% użytkowników uzyskało w ciągu 7 dni zysk z aparatu słuchowego ≥10%, co oznacza efektywne zaopatrzenie. Największy zysk osiągają pacjenci z 2. i 3. stopniem niedosłuchu według skali WHO (World Health Organization).

Słowa kluczowe APPLICATION OF THE WEB-BASED APPLICATION FOR THE ASSESSMENT OF THE QUALITY OF HEARING AID FITTING

Projekt badawczy DS

Pozycja nr 83

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Kąkol, B. Kostek

Tytuł angielski A STUDY ON IMPROVING OBJECTIVE QUALITY INDICATORS OF SPEECH UTTERANCES IN NOISE CONDITIONS

Tytuł polski POPRAWA OBIEKTYWNYCH WSKAŹNIKÓW JAKOŚCI MOWY W WARUNKACH HAŁASU

Czasopismo Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

Wolumin 60

Numer czasopisma

Strony 45 - 50

Rok 2018

Identyfikator DOI doi: 10.32016/1.60.09

Uwagi częściowo DEC-2015/17/B/ST6/01874

Abstract The aim of the work is to modify the speech signal in order to improve objective speech quality indicators after mixing the useful signal with noise or with an interfering signal. Modifications made to the signal are based on the characteristics of the Lombard speech, and in particular on the effect of raising the fundamental frequency F0. The recording session included sets of words and sentences in Polish, recorded in silence, as well as in the presence of interfering signals, i.e. pink noise and so-called babble speech, also referred to as the "cocktail-party" effect. As a part of the research, speech samples were processed - both sentences and words spoken by men. The study shows that raising the fundamental frequency results in increased values of the speech quality index, measured using the PESQ (Perceptual Evaluation of Speech Quality) standard.

Streszczenie Celem pracy jest modyfikacja sygnału mowy, aby uzyskać zwiększenie poprawy obiektywnych wskaźników jakości mowy po zmiksowaniu sygnału użytecznego z szumem bądź z sygnałem zakłócającym. Wykonane modyfikacje sygnału bazują na cechach mowy lombardzkiej, a w szczególności na efekcie podniesienia częstotliwości podstawowej F0. Sesja nagraniowa obejmowała zestawy słów i zdań w języku polskim, nagrane w warunkach ciszy, jak również w obecności sygnałów zakłócających, tj. szumu różowego oraz tzw. gwaru (ang. babble speech), określanego też jako efekt „cocktail-party”. W ramach badań przetwarzano próbki mowy głosów męskich. W pracy wykazano, że podniesienie częstotliwości podstawowej skutkuje zwiększonymi wartościami wskaźnika jakości mowy, mierzonymi przy użyciu standardu PESQ (Perceptual Evaluation of Speech Quality).

Słowa kluczowe efekt Lombarda; wskaźnik oceny jakości sygnału mowy PESQ (Perceptual Evaluation of Speech Quality); parametry sygnału mowy.

Projekt badawczy ALOFON

Pozycja nr 84

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, S. Zaporowski, B. Kostek

Tytuł angielski Bimodal classification of English allophones employing acoustic speech signal and facial motion capture

Czasopismo J. Acoust. Soc. Amer.

Wolumin 144

Numer czasopisma 3

Strony 1801 - 1802

Rok 2018

Identyfikator DOI 10.1121/1.5067951

Uwagi ASA Meeting, Vancouver 5-9. 11. 2018

Projekt badawczy ALOFON

Pozycja nr 85

Typ pozycji: referat konferencyjny

Autorzy M. Piotrowska, G. Korvel, B. Kostek, A. Rojczyk, A. Czyżewski

Tytuł angielski Objectivization of phonological evaluation of speech elements by means of audio parametrization

Konferencja 2018 11th International Conference on Human System Interaction (HSI)

Numer preprintu

Numer

Wolumin

Strony 325 - 331

Miejsce konferencji Gdańsk, Polska

Data konferencji 4.7.2018- 6.7.2018

Uwagi Proc. w WoS

Abstract This study addresses two issues related to both machine- and subjective-based speech evaluation by investigating five phonological phenomena related to allophone production. Its aim is to use objective parametrization and phonological classification of the recorded allophones. These allophones were selected as specifically difficult for Polish speakers of English: aspiration, final obstruent devoicing, dark lateral /l/, velar nasal and prefortis clipping. A set of audio features based on mechanism of each phonological process was created. Recordings of phonetic material prepared by phonology expert were executed. First, several speakers were recorded while reading words from a teleprompter. Then, every word was played back from the previously recorded sample read by a phonology expert and each examined speaker repeated a particular word trying to imitate correct pronunciation. The next step consisted in partitioning by editing two recorded sets of words into allophones, then signals were analyzed and subsequently audio excerpts were parametrized. The comparison of two sets of allophones was reinforced by the phonology expert’s assessment of produced speech sounds. Analyses presented in this paper allowed for discovering a set of parameters, which enable to determine whether the target processes were pronounced correctly.

Słowa kluczowe allophone, phonology, foreign language, audio features

Projekt badawczy ALOFON

Pozycja nr 86

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski Sound quality metrics applied to road noise evaluation

Konferencja 176th Meeting od the Acoustical Society of America and 2018 Acoustic Week in Canada

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Victoria, Kanada

Data konferencji 5.11.2018- 9.11.2018

Uwagi https://acousticalsociety.org/wp-content/uploads/2018/10/PASA_144_3_pt2.pdf

Abstract Road noise monitoring systems typically measure sound levels in specific time periods. The more insightful approach suggests to measure also the nature of noise. Sound quality of sounds such as car noise can be objectively evaluated by several parameters. One of them is psychoacoustic annoyance, described by loudness, tone color, and the temporal structure of sound. In this paper the assessment of several sound quality parameters, such as: loudness of time-varying noise, sharpness, fluctuation strength, and roughness, as well some additional parameters borrowed from the Music Information Retrieval area are presented. Then a comparison between parameter values obtained by means of the professional measurement system and a tool working in the Matlab environment is performed. The conducted investigations are carried out using recorded samples of an individual vehicle 1930 J. Acoust. Soc. Am., Vol. 144, No. 3, Pt. 2, September 2018 ASA Fall 2018 Meeting/2018 Acoustics Week in Canada 1930 pass-by in close proximity of the road, organized as a database of road traffic noise recordings.

Słowa kluczowe NOISE, ROAD NOISE, SOUND QUALITY

Projekt badawczy INPREDO

Pozycja nr 87

Typ pozycji: referat konferencyjny

Autorzy P. Odya, A. Czyżewski, A. Sroczyński, B. Kostek

Tytuł angielski A Device for Measuring Auditory Brainstem Responses to Audio

Tytuł polski Urządzenie do pomiarów słuchowych potencjałów wywołanych pnia mózgu za pomocą sygnałów fonicznych

Konferencja 145th AES Convention

Numer preprintu

Numer 485

Wolumin

Strony

Miejsce konferencji Nowy Jork, USA

Data konferencji 17.10.2018- 20.10.2018

Abstract Standard ABR devices use clicks and tone bursts to assess subjects’ hearing in an objective way. A new device was developed that extends the functionality of a standard ABR audiometer by collecting and analyzing auditory brainstem responses (ABR). The developed accessory allows for the use of complex sounds (e.g., speech or music excerpts) as stimuli. Therefore, it is possible to find out how efficiently different types of sounds are processed in the hearing system including brain. The paper contains technical details related to the design of the device, including its hardware and software parts. The test results that have been carried out to verify the operation of the device are also described.

Słowa kluczowe ABR, hearing, device

Projekt badawczy HCIBRAIN

Pozycja nr 88

Typ pozycji: referat konferencyjny

Autorzy M. Piotrowska, S. Piotrowski, L. Pindor, B. Kostek

Tytuł angielski Objective and Subjective Evaluation of "Automatic Mastering" Compared to Mastering Engineer’s Musical Product Creation

Konferencja AES UK Mastering Conference

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji London, UK

Data konferencji 22.9.2018- 23.9.2018

Abstract Through the past decade we encounter an enormous increase of music produced in home- and project-studios. In self-produced, independent and low-budget projects, mastering - considered by many as the last creative part of the process - is often included in the mixing process as bus processing. Obviously, this trend is magnified by the rapid development of "automatic mastering services". Moreover, one may expect that in some cases a home-produced mix results in a low quality product, which cannot however be fixed by an automatic mastering service as the primary goal of mastering is to transform a fully arranged mix into a musical product, ready for distribution. In this paper, authors examine changes introduced to audio signals resulted from processing by various online platforms, which offer instant, automatic mastering services. A music set consisting of 10 songs produced in small facilities was processed by six automatic mastering services including five on-line solutions and one algorithm proposed by by one of the co-authors. Additionally to music tracks some laboratory-constructed signals were tested. To determine, whether changes introduced to audio are invariable between trials, every music excerpt was submitted several times. For each sample, parameters related to music characteristics such as timbre, dynamics and loudness were extracted before and after processing. Results obtained enable to discover some of the mechanisms underlying automatic mastering services tested as well as discerning similarities and differences between various platforms. In addition, authors invited 3 mastering engineers to create their mastered versions of all tracks. Since most of automatic services do not refer to the target distribution medium, mastering engineers were instructed to provide a musical product version suitable for digital distribution. As the last stage of this investigation subjective evaluation of the processing results was performed. Listening tests included versions of the tracks returned by "instant mastering" services as well as files delivered by three mastering engineers.

Słowa kluczowe audio mastering, audio parameterization, music processing

Projekt badawczy DS

Pozycja nr 89

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, D. Koszewski, J. Kotus, B. Kostek

Tytuł angielski A Stand for Measurement and Prediction of Scattering Properties of Diffusers

Konferencja 144nd Audio Engineering Society International Convention 2018, AES 2018

Numer preprintu

Numer

Wolumin

Strony 1 - 4

Miejsce konferencji Mediolan, Włochy

Data konferencji 23.5.2018- 26.5.2018

Abstract In this paper we present a set of solutions which may be used for prototyping and simulation of acoustic scattering devices. A system proposed is capable of measuring sound field. Also a way to use an open source solution for simulation of scattering phenomena occurring in proximity of acoustic diffusers is shown. The result of our work are measurement procedure and a prototype of the simulation script based on FEniCS - an open source computing platform for the FEM-based solution of differential equations. A visualization and comparison between data obtained from measurement and an example of the simulation scenario are presented and discussed.

Słowa kluczowe ACOUSTIC DIFFUSER, FINITE ELEMENT METHOD, SOUND PROGPAGATION

Pozycja nr 90

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, A. Kurowski, P. Odya, B. Kostek

Tytuł polski Rejestracja materiału badawczego z wykorzystaniem DSO i przygotowanie repozytorium nagrań.

Numer raportu P-INSPACE-23-06-2018

Rok 2018

Streszczenie W niniejszym dokumencie przedstawiono opis procesu rejestracji materiału badawczego w wybranych obiektach wyposażonych w instalację rozgłoszeniową i przygotowanie repozytorium nagrań. Niniejszy raport dokumentuje prace wykonane w ramach realizacji podzadania 2b - LAF dokonana rejestracji materiału badawczego i przygotowanie repozytorium nagrań. Przeprowadzenie pomiarów w wytypowanych obiektach, ujętych w Harmonogramie rzeczowo-finansowym PG.

Projekt badawczy INSPACE

Pozycja nr 91

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski AUDIO SIGNAL EQUALIZATION BASED ON IMPULSE RESPONSE OF A LISTENING ROOM AND MUSIC CONTENT REPRODUCED

Tytuł polski Koncepcja korekcji sygnału dźwiękowego z uwzględnieniem odpowiedzi impulsowej pomieszczenia i zawartości sygnału.

Czasopismo Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej. Technologie Informacyjne

Wolumin 23

Numer czasopisma 1

Strony 13 - 20

Rok 2018

Numer pozycji bibl. 13

Abstract A research study presents investigations of the influence of the room acoustics on the frequency characteristic of the audio signal playback. First, a concept of a novel spectral equalization method of the room acoustic conditions is introduced. On the basis of the room spectral response, a system for room acoustics compensation based on an equalizer designed is proposed. The system settings depend on music genre recognized automatically. In order to acquire room acoustic characteristics, a series of measurements are performed. The impact of the impulse response on particular genres of music has also been presented. In the analysis of impulse responses, both examples of concert halls, as well as other acoustic spaces were examined. Also, future work on sound correction has been presented.

Słowa kluczowe equlization, impulse response, music content, smart audio

Projekt badawczy DS

Pozycja nr 92

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski INFLUENCE OF DATA NORMALIZATION ON THE EFFECTIVENESS OF NEURAL NETWORKS APPLIED TO CLASSIFICATION OF PAVEMENT CONDITIONS – CASE STUDY

Tytuł polski Wpływ normalizacji danych na efektywność treningu i skuteczność sztucznych sieci neuronowych na przykładzie klasyfikacji stanu nawierzchni.

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin 23

Numer czasopisma 1

Strony 5 - 12

Rok 2018

Numer pozycji bibl. 12

Abstract In recent years automatic classification employing machine learning seems to be in high demand for tele-informatic-based solutions. An example of such solutions are intelligent transportation systems (ITS), in which various factors are taken into account. The subject of the study presented is the impact of data pre-processing and normalization on the accuracy and training effectiveness of artificial neural networks in the case of pavement condition classification. First, audio parametrization process is shortly described and then the most commonly used methods of data normalization are recalled. Examples of analyses are shown, along with conclusions on application of neural networks to pavement moisture condition classification. A neural network based on the Java Neuroph library was designed. Training time and the network evaluation efficiency of the data without and with normalization performed were shown and analyzed. As it turns out, the Z-score normalization is the most accurate, and also the fastest one for the dataset gathered.

Streszczenie Automatyczna klasyfikacja wykorzystująca algorytmy uczenia maszynowego wymaga zastosowania rozwiązań teleinformatycznych. Przykładem takich rozwiązań są inteligentne systemy transportowe (ITS), w których brane są pod uwagę różne czynniki. Przedmiotem niniejszych badań jest wpływ wstępnego przetwarzania danych i normalizacji na dokładność i skuteczność treningu sztucznych sieci neuronowych w przypadku klasyfikacji stanu nawierzchni. W pierwszej kolejności krótko opisano proces parametryzacji sygnałów fonicznych, a następnie przywołano najczęściej używane metody normalizacji danych. Przedstawiono przykłady analiz wraz z wnioskami dotyczącymi zastosowania sieci neuronowych do klasyfikacji stanu nawierzchni. Zaprojektowano sieć neuronową w oparciu o bibliotekę Neuroph w języku Java. Zbadano czas treningu oraz skuteczność sieci dla danych bez obróbki, oraz stosując opisane metody normalizacji danych.

Słowa kluczowe neural network, data normalization, pavement condition

Projekt badawczy INPREDO

Pozycja nr 93

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, B. Kostek

Tytuł polski Metodyka wykonania pomiarów akustycznych w obiektach objętych działaniem systemu DSO

Numer raportu P-INSPACE-16-03-2018

Rok 2018

Streszczenie W niniejszym dokumencie przedstawiono opis metodyki wykonywania pomiarów akustycznych w wybranych obiektach wyposażonych w instalację rozgłoszeniową. Niniejszy raport dokumentuje prace wykonane w ramach realizacji podzadania 2a - Sprecyzowanie metodyki pomiarowej i celów wykonania pomiarów, wybór lokalizacji dla potrzeb rejestracji materiału badawczego (możliwe lokalizacje wykonania pomiarów wskaże ABT, LAF dokona ich przeglądu i zaproponuje miejsce/miejsca pomiarów), ujętych w Harmonogramie rzeczowo-finansowym PG.

Projekt badawczy INSPACE

Pozycja nr 94

Typ pozycji: raport

Autorzy J. Kotus, G. Szwoch, P. Szczuko, A. Kurowski, P. Odya, B. Kostek

Tytuł polski Dokumentacja prac wykonanych przez zespół LAF w ramach zadania 4

Numer raportu P-INSPACE-09-10-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 4, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadań 4a i 4b.

Projekt badawczy INSPACE

Pozycja nr 95

Typ pozycji: raport

Autorzy J. Kotus, P. Odya, A. Kurowski, P. Szczuko, B. Kostek

Tytuł polski Opracowanie oprogramowania symulacyjnego w środowisku Matlab na potrzeby testowania algorytmów transpozycji (czasowej) sygnału mowy

Numer raportu P-INSPACE-24-09-2018

Rok 2018

Streszczenie Niniejszy dokument stanowi podsumowanie prac wykonanych przez zespół LAF w ramach zadania 4, ujętego w Harmonogramie rzeczowo-finansowym PG, uszczegółowionego w ramach zadania 4b. Dla łatwiejszej oceny niniejszego raportu przywołano uzgodnioną treść zadania 4b: Opracowanie oprogramowania symulacyjnego w środowisku MATLAB, przeprowadzenie badań w warunkach laboratoryjnych przy użyciu środowiska MATLAB, określenie metod pomiaru współczynnika DCR dostosowanych do wprowadzanych przez algorytmy modyfikacji sygnału. Wyznaczenie miar poprzez wykorzystanie metryk obiektywnych niezbędnych w dalszym etapie badań do określenia punktu odniesienia przy dalszych testach algorytmów poprawy jakości sygnałów (dokumentacja oprogramowania).

Projekt badawczy INSPACE

Pozycja nr 96

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski Audio Signal Processing in ITS The State-of-the-Art

Tytuł polski Przetwarzanie dźwięku w ITS - przegląd dostępnych rozwiązań

Konferencja Wydziałowe Warsztaty Doktorantów 2018

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 9.7.2018- 9.7.2018

Uwagi Wystąpienie, bez przedruku

Abstract Acoustic analysis of the road traffic provides various types of traffic oriented data corresponding to vehicles velocity and safety issues. One of the crucial point in emergency situation it to provide help in the shortest possible time. Faster and more specific localization of the car crash can manage to improve safety on roads. Acoustic analysis and detection systems are used in many countries, however mostly to , detects explosions or shooting in large city agglomerations.

Słowa kluczowe its, road traffic, acoustic monitoring,

Pozycja nr 97

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, M. Blaszke, B. Kostek

Tytuł angielski Acoustic Road Monitoring

Konferencja XII MIĘDZYNARODOWA KONFERENCJA BEZPIECZEŃSTWA RUCHU DROGOWEGO GAMBIT 2018

Numer preprintu

Numer 05002

Wolumin 231

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 12.4.2018- 13.4.2018

Identyfikator DOI 10.1051/matecconf/201823105002

Uwagi https://www.scopus.com/record/display.uri?eid=2-s2.0-85057451160&origin=resultslist&sort=plf-f&src=s&sid=008e23d418b2ee20bacf1ca4c47a89c8&sot=autdocs&sdt=autdocs&sl=18&s=AU-ID%2857189691452%29&relpos=

Abstract The subject of this research is showing the performance of an automatic acoustic road monitoring system proposed by the authors. The main goal of the study is describing road traffic by means of an acoustic representation and testing effectiveness of traffic flow sensors. Evaluation metrics of the road conditions such as velocity of the traffic flow, its structure and weather condition are presented along with acoustic descriptors derived from the audio signal analysis. Accuracy of emergency vehicles pass by detection based on acoustic monitoring is also briefly described.

Słowa kluczowe ACOUSTICS, ROAD DETECTION, ROAD TRAFFIC NOISE

Projekt badawczy INZNAK

Pozycja nr 98

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Intelligent equalizer solution employing music genre and the room characteristics analysis

Tytuł polski Inteligentna korekcja sygnału dźwiękowego z uwzględnieniem charakterystyk częstotliwościowych pomieszczenia oraz gatunku muzycznego

Czasopismo Elektronika : konstrukcje, technologie, zastosowania

Wolumin 58

Numer czasopisma 4

Strony 13 - 17

Rok 2017

Identyfikator DOI 10.15199/13.2017.4.3

Numer pozycji bibl. 17

Abstract The paper presents an intelligent equalizer solution based on room acoustic conditions and music genre analysis. A series of acoustic characteristic measurements are performed for checking the concept proposed. White noise (reference signal) and audio excerpts belonging to six music genres are utilized as excitation signals in measurements. This results in registration of frequency responses of rooms and reverberation times. Signals recorded in the listener’s receiver position are used to obtain room equalization characteristics. Pilot subjective tests are performed to obtain information on listeners’ preference on spectral characteristics of reproduced music depending on music genre.

Streszczenie W artykule przedstawiono koncepcję inteligentnego rozwiązania korektora graficznego uwzględniającego warunki akustyczne pomieszczenia oraz gatunek muzyczny. W przeprowadzonych pomiarach właściwości akustycznych badanych pomieszczeń wykorzystano szum biały (sygnał odniesienia) oraz fragmenty sygnałów fonicznych, należących do sześciu gatunków muzycznych. Na podstawie pomierzonej charakterystyki częstotliwościowej pomieszczenia dokonano kompensacji warunków akustycznych w otoczeniu miejsca odsłuchu z uwzględnieniem gatunku muzycznego. Przeprowadzono wstępne testy subiektywne w celu uzyskania informacji w kontekście preferencji słuchaczy reprodukowanej muzyki w zależności od gatunku muzycznego.

Słowa kluczowe EQUALIZATION, LUFS, MUSIC GENRES, ROOM ACOUSTICS

Projekt badawczy DS

Pozycja nr 99

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, G. Korvel

Tytuł angielski Rough Sets Applied to Music Informatics

Tytuł polski Przetwarzanie baz muzycznych w oparciu o system wykorzystujący zbiory przybliżone

Konferencja DAMSS 2017, 10th International Workshop Data Analysis Methods for Software Systems

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Druskininkai, Lithuania

Data konferencji 29.11.2017- 1.12.2017

Uwagi https://www.mii.lt/damss/index.php?page=program&lang=en

Abstract In this presentation music data processing and mining in large databases is investigated based on soft computing methods. First, principles of rule-based classifiers and particularly rough sets are presented, showing their usability in music informatics. Several examples of music processing are shown, including music genre/mood classification, automatic music collection tagging, personal recommendation, composing a playlist, etc. Next, for the purpose of this research study a large number of 30000 audio files divided into different music genres/music mood were gathered to form a database. All files contained in this database were parametrized and resulted in a feature vector of 173 parameters. To reduce the dimensionality of data the correlation analysis was performed. This was then compared to the rough set-based processing of the same feature vectors as such an algorithm produced reducts containing the most promising descriptors in the context of music genre/mood recognition. Classification tests were conducted using the Rough Set Exploration System (RSES), a toolset for analyzing data with the use of methods based on the rough set theory as well as in the WEKA environment with the use of k-Nearest Neighbors (kNN), Bayesian Network (Net) and Sequential Minimal Optimization (SMO) algorithms. All results were analyzed in terms of the recognition rate and computation time efficiency. In conclusion, a potential of rough set-based approach when applied to music informatics was underlined as it offers the possibility to deal with imprecise, vague and indiscernible data objects.

Streszczenie W pracy przedstawiono kolejne fazy przetwarzania sygnałów muzycznych w kontekście automatycznej klasyfikacji oraz rekomendacji muzyki. W badaniach wykorzystano dedykowany wektor parametrów oraz system RSES, wykorzystujący przetwarzanie w oparciu o zbiory przybliżone.

Słowa kluczowe zbiory przybliżone, informatyka muzyczna, przetwarzanie sygnałów muzycznych

Projekt badawczy DS

Pozycja nr 100

Typ pozycji: referat konferencyjny

Autorzy T. Poremski, P. Szymański, B. Kostek

Tytuł polski OCENA EFEKTYWNOŚCI KRÓTKOTERMINOWEGO ZASTOSOWANIA APARATÓW SŁUCHOWYCH Z WYKORZYSTANIEM APLIKACJI INTERNETOWEJ

Konferencja ISSET 2017, XVII Międzynarodowe Sympozjum Inżynierii i Reżyserii Dźwięku

Numer preprintu

Numer

Wolumin

Strony 1 - 15

Miejsce konferencji Warszawa, Polska

Data konferencji 13.10.2017- 15.10.2017

Streszczenie W pracy przedstawiono opracowanie metody oceny efektywności protezowania osób niedosłyszących aparatami słuchowymi. Metoda polega na badaniu ankietowym opartym na kwestionariuszu oceny APHAB uzupełnionym testem rozumienia słów jednosylabowych w polu swobodnym. Uwzględniono dodatkowe kryteria, takie jak: stopień ubytku słuchu, po-miar liczby godzin i dni korzystania z aparatów słuchowych oraz doświadczenia pacjenta. Metoda została opracowana w celu umożliwienia skutecznego pomiaru dużej grupy osób ba-danych w całym kraju. Przygotowano i opracowano internetową aplikację, umożliwiającą przeprowadzenie badania z dowolnego komputera z dostępem do sieci. Zakres badań i pomiarów został wybrany w taki sposób, aby można było z niego korzystać z wykorzystaniem istniejących zasobów personalnych oraz typowego wyposażenia audiologicznego punktów protetycznych. W opracowaniu uwzględniono specyfikę badanych, pośród których dużą grupę stanowią osoby w podeszłym wieku. Metoda bierze zatem pod uwagę charakterystykę najczęściej wy-stępującego otoczenia akustycznego tych osób oraz ich zdolności percepcyjne. W pracy zawarto przegląd istniejących metod oceny efektywności i skuteczności protezowania aparatami słuchowymi, przyjętą metodologię badania oraz wnioski.

Słowa kluczowe protezy słuchu, kwestionariusz oceny APHAB (Abbreviated Profile of Hearing Aid Benefit), skuteczność protezowania aparatami słuchowymi

Projekt badawczy DS

Pozycja nr 101

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, M. Piotrowska, B. Kostek

Tytuł angielski Analysis of allophones based on audio signal recordings and parameterization

Tytuł polski Ocena wymowy wybranych alofonów na podstawie sparametryzowanych reprezentacji sygnału mowy

Czasopismo J. Acoust. Soc. Amer.

Wolumin 141

Numer czasopisma

Strony 3521

Rok 2017

Identyfikator DOI https://doi.org/10.1121/1.4987415

Abstract The aim of this study is to develop an allophonic description of English plosive consonants based on recordings of 600 specially selected words. Allophonic variations addressed in the study may have two sources: positional and contextual. The former one depends on the syllabic or prosodic position in which a particular phoneme occurs. Contextual allophony is conditioned by the local phonetic environment. Co-articulation overlapping in time demands a precise determination of allophonic pronunciation in the context of phonemic transcription. The presented study is focused on creation of speech recordings that may serve for the analysis of allophone variation. Two sets of recordings are prepared. The first one consists of words read by the non-native speakers. Tempo of reading is forced by a teleprompter. In the second case, every word is played back from the recordings of the phonology expert and then the speaker repeats a particular word. The last stage is the assessment of recordings by the same expert. Scores assigned by the expert are included as a reference for signal analysis and parametrization. [Research sponsored by the Polish National Science Centre, Dec. No.2015/17/B/ST6/01874.]

Streszczenie Celem pracy było przygotowanie bazy nagrań wybranych słów, które posłużyły następnie do edycji wybranych alofonów. Nagrania dotyczyły mówców anglojęzycznych, jak również mówców o różnym stopniu znajomości j. angielskiego (w tym drugim przypadku nagrania powtórzone dwukrotnie, za drugim razem z odsłuchem mówcy anglojęzycznego). Kolejnym punktem był opis parametryczny wybranych alofonoów w kontekście automatycznej oceny wymowy.

Słowa kluczowe alofon, baza nagrań, parametryzacja, automatyczna ocena wymowy

Projekt badawczy ALOFON

Pozycja nr 102

Typ pozycji: referat konferencyjny

Autorzy K. Mrozik, A. Kurowski, B. Kostek, A. Czyżewski

Tytuł angielski Comparison of selected electroencephalographic signal classification methods

Konferencja SPA2017 Signal Processing: Algorithms, Architectures, Arrangements, and Application

Numer preprintu

Numer

Wolumin

Strony 34 - 41

Miejsce konferencji Poznań, Polska

Data konferencji 20.9.2017- 22.9.2017

Abstract A variety of methods exists for electroencephalographic (EEG) signals classification. In this paper, we briefly review selected methods developed for such a purpose. First, a short description of the EEG signal characteristics is shown. Then, a comparison between the selected EEG signal classification methods, based on the overview of research studies on this topic, is presented. Examples of methods included in the study are: Artificial Neural Networks, Support Vector Machines, Fuzzy or k-Means Clustering. Similarities and differences between all considered methods of an automatic EEG signal classification with a focus on consecutive stages of such a process are reviewed. Examples of EEG classification, considering various types of usage and target applications along with their effectiveness, are also shown.

Słowa kluczowe brain-computer interface, EEG signal, EEG signal classification, machine learning

Projekt badawczy HCIBRAIN

Pozycja nr 103

Typ pozycji: książka

Autorzy A. Kurowski, P. Odya, P. Szczuko, M. Lech, P. Spaleniak, B. Kostek, A. Czyżewski

Tytuł angielski Multimodal system for diagnosis and polysensory stimulation of subjects with communication disorders

Wydawca Springer Verlag

Strony 47 - 56

Rok 2017

Identyfikator DOI 10.1007/978-3-319-60438-1_5

Abstract An experimental multimodal system, designed for polysensory diagnosis and stimulation of persons with impaired communication skills or even non-communicative subjects is presented. The user interface includes an eye tracking device and the EEG monitoring of the subject. Furthermore, the system consists of a device for objective hearing testing and an autostereoscopic projection system designed to stimulate subjects through their immersion in a virtual environment. Data analysis methods are described, and experiments associated with classification of mental states during listening exercises as well as audio-visual stimuli are presented and discussed. Feature extraction was based on discrete wavelet transformation and clustering employing the k-means algorithm was designed. All algorithms were implemented in the Python programming language with the use of Open Source libraries. Tests of the proposed system were performed in a Special School and Educational Center in Koś-cierzyna, Poland. Results and comparison with data gathered from the control group of healthy people are presented and discussed.

Słowa kluczowe communication disorders, data clustering, EEG, multimodal interfaces, polysensory stimulation

Projekt badawczy HCIBRAIN

Pozycja nr 104

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, J. Kotus, B. Kostek

Tytuł angielski Measurement and visualization of sound intensity vector distribution in proximity of acoustic diffusers

Konferencja 142nd Audio Engineering Society International Convention 2017, AES 2017

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Berlin, Niemcy

Data konferencji 20.5.2017- 23.5.2017

Abstract In this work, we would like to present analyses and visualizations of sound intensity distribution measured in proximity of an acoustic diffuser. Such distribution may be used for estimation of basic acoustic parameters of a diffuser. Measurement is performed with the use of a logarithmic sine sweep which allows for the analysis of waves scattered by the diffuser and rejecting the direct sound signal component. Pressure and sound intensity vector impulse responses are measured simultaneously. The measurement is carried out for a grid of 37 points arranged at equal intervals lying in a semicircle. To investigate the impact of objects evaluated on the sound wave propagation diffusion coefficients and sound intensity vector distributions are then compared.

Słowa kluczowe acoustic diffuser, room treatment, sound intensity, wave propagation

Pozycja nr 105

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Korvel, B. Kostek

Tytuł angielski Voiceless Stop Consonant Modelling and Synthesis Framework Based on MISO Dynamic System

Tytuł polski Propozycja modelu głosek bezdżwięcznych wykorzystująca strukturę MISO (Multiple-Input and Single-Output)

Czasopismo Archives of Acoustics

Wolumin 42

Numer czasopisma 3

Strony 375 - 383

Rok 2017

Identyfikator DOI 10.1515/aoa-2017-0039

Uwagi partially Alofon

Abstract A voiceless stop consonant phoneme modelling and synthesis framework based on a phoneme modelling in low-frequency range and high-frequency range separately is proposed. The phoneme signal is decomposed into the sums of simpler basic components and described as the output of a linear multiple-input and single-output (MISO) system. The impulse response of each channel is a third order quasi-polynomial. Using this framework, the limit between the frequency ranges is determined. A new limit point searching three-step algorithm is given in this paper. Within this framework, the input of the low-frequency component is equal to one, and the impulse response generates the whole component. The high-frequency component appears when the system is excited by semi-periodic impulses. The filter impulse response of this component model is single period and decays after three periods. Application of the proposed modelling framework for the voiceless stop consonant phoneme has shown that the quality of the model is sufficiently good. Acknowledgments: Polish National Commission for UNESCO Scheme (fellowship grant financed by the Ministry of Science and Higher Education) and the Polish National Science Centre, Dec. No. 2015/17/B/ST6/01874 keywords: speech synthesis; consonant phonemes; phoneme modelling framework; MISO system

Streszczenie słowa kluczowe: przetwarzanie mowy, synteza mowy, fonem, modelowanie spółgłosek, układ MISO (Multiple-Input and Single-Output). W artykule przedstawiono zagadnienia związane z syntezą mowy, a w szczególności z modelowaniem fonemów z wykorzystaniem liniowej struktury MISO (multiple-input and single-output). W pierwszej kolejności odniesiono się do aktualnego stanu wiedzy w modelowaniu pojedynczych fonemów (w rozważanym przypadku, spółgłosek bezdźwięcznych) oraz przedstawiono matematyczny model wykorzystywany w badaniach. W dalszej części przedstawiono algorytm implementujący zaprojektowaną strukturę oraz wyniki badań, które potwierdzają możliwość generowania syntetycznych o dobrej jakości dźwięku.

Projekt badawczy ALOFON

Pozycja nr 106

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek, A. Kurowski, P. Szczuko, M. Lech, P. Odya, A. Kwiatkowska

Tytuł angielski Multimodal approach for polysensory stimulation and diagnosis of subjects with severe communication disorders

Czasopismo Procedia Computer Science

Wolumin 121

Numer czasopisma

Strony 238 - 243

Rok 2017

Identyfikator DOI 10.1016/j.procs.2017.11.033

Abstract An experimental multimodal system, designed for polysensory diagnosis and stimulation of non-communicative subjects, with severe brain injuries is presented. The user interface uses an eye-tracking device and EEG monitoring of the subject. The system is evaluated on 9 patients, data analysis methods are described, and experiments of correlating Glasgow Coma Scale with extracted features describing subjects performance in therapeutic exercises exploiting EEG and eyetracker are presented. Performance metrics are proposed, and k-means clusters used to define concepts for mental states related to EEG and eyetracking activity. Finally, it is shown that the strongest correlations are between the number of detected mental states and GCSe score, and between maximal length of mental state and GCSm. Weaker correlations are reported as well. Moreover an approach to classification of real and imaginary motion of limbs is presented and discussed. Classifiers based on SVM, Artificial Neural Networks, and Rough Sets were trained and accuracy reaching 91% for the real, and up to 100% for the imaginary type of motion was observed. Assessments of communication skills and therapy is possible with the system, already employed in long-term care facility.

Słowa kluczowe communication disorders, brain injuries, polysensory stimulation, EEG, electroencephalography, multimodal interfaces, imaginary motion

Projekt badawczy HCIBRAIN

Pozycja nr 107

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, A. Kurowski, P. Szczuko, M. Lech, P. Odya, A. Kwiatkowska

Tytuł angielski Multimodal Approach For Polysensory Stimulation And Diagnosis Of Subjects With Severe Communication Disorders

Konferencja HCist - International Conference on Health and Social Care Information Systems and Technologies

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Barcelona, Hiszpania

Data konferencji 8.11.2017- 10.11.2017

Abstract An experimental multimodal system, designed for polysensory diagnosis and stimulation of non-communicative subjects, with severe brain injuries is presented. The user interface uses an eye-tracking device and EEG monitoring of the subject. The system is evaluated on 9 patients, data analysis methods are described, and experiments of correlating Glasgow Coma Scale with extracted features describing subjects performance in therapeutic exercises exploiting EEG and eyetracker are presented. Performance metrics are proposed, and k-means clusters used to define concepts for mental states related to EEG and eyetracking activity. Finally, it is shown that the strongest correlations are between the number of detected mental states and GCSe score, and between maximal length of mental state and GCSm. Weaker correlations are reported as well. Moreover an approach to classification of real and imaginary motion of limbs is presented and discussed. Classifiers based on SVM, Artificial Neural Networks, and Rough Sets were trained and accuracy reaching 91% for the real, and up to 100% for the imaginary type of motion was observed. Assessments of communication skills and therapy is possible with the system, already employed in long-term care facility.

Słowa kluczowe communication disorders, brain injuries, polysensory stimulation, EEG, electroencephalography, multimodal interfaces, imaginary motion

Projekt badawczy HCIBRAIN

Pozycja nr 108

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Rosner, B. Kostek

Tytuł angielski Automatic music genre classification based on musical instrument track separation

Tytuł polski Automatyczna klasyfikacja gatunku muzycznego wykorzystująca algorytm separacji dźwięku instrumentó muzycznych

Czasopismo Journ. of Intelligent Information Systems

Wolumin

Numer czasopisma

Strony

Rok 2017

Identyfikator DOI doi:10.1007/s10844-017-0464-5

Abstract The aim of this article is to investigate whether separating music tracks at the pre-processing phase and extending feature vector by parameters related to the specific musical instruments that are characteristic for the given musical genre allow for efficient automatic musical genre classification in case of database containing thousands of music excerpts and a dozen of genres. Results of extensive experiments show that the approach proposed for music genre classification is promising. Overall, conglomerating parameters derived from both an original audio and a mixture of separated tracks improve classification effectiveness measures, demonstrating that the proposed feature vector and the Support Vector Machine (SVM) with Co-training mechanism are applicable to a large dataset. Keywords: Music information retrieval (MIR) Automatic music genre classification Automatic separation of music tracks Support vector machine (SVM)

Streszczenie Celem artykułu było przedstawienie badań pokazujących czy zastosowanie separacji ścieżek muzycznych w fazie wstępnego przetwarzania wspomaga efektywność procesu automatycznego rozpoznawania gatunków muzycznych. W badaniach wykorzystano maszynę wektorów wspierających (SVM) i bazę danych muzycznych zawierającą kilkadziesiąt tysięcy utworów muzycznych. Słowa kluczowe: informatyka muzyczna, wyszukiwanie informacji muzycznej (MIR), maszyna wektorów wspierających (SVM), klasyfikacja gatunków muzycznych

Pozycja nr 109

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Piotrowska, T. Ciszewski, A. Czyżewski

Tytuł angielski Determining Pronunciation Differences in English Allophones Utilizing Audio Signal Parameterization

Konferencja 142nd Audio Engineering Society Convention

Numer preprintu 9716

Numer

Wolumin

Strony

Miejsce konferencji

Data konferencji 20.5.2017- 23.5.2017

Abstract An allophonic description of English plosive consonants, based on audio-visual recordings of 600 specially selected words, was developed. First, several speakers were recorded while reading words from a teleprompter. Then, every word was played back from the previously recorded sample read by a phonology expert and each examined speaker repeated a particular word trying to imitate correct pronunciation. The next step consisted in partitioning by editing two recorded sets of words into allophones, then signals were analyzed and subsequently audio excerpts were parametrized. The comparison of two sets of allophones was reinforced by the phonology expert’s assessment of produced speech sounds. Analyses presented in this paper allowed for determining a set of parameters describing an allophone pronunciation.

Projekt badawczy ALOFON

Pozycja nr 110

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Piotrowska, A. Czyżewski

Tytuł angielski Comparative Study of Self-Organizing Maps vs. Subjective Evaluation of Quality of Allophone Pronunciation for Nonnative English Speakers

Konferencja 143rd Audio Engineering Society Convention

Numer preprintu 9847

Numer

Wolumin

Strony

Miejsce konferencji New York, USA

Data konferencji 18.10.2017- 21.10.2017

Abstract The purpose of this study was to apply Self-Organizing Maps to differentiate between the correct and the incorrect allophone pronunciations and to compare the results with subjective evaluation. Recordings of a list of target words, containing selected allophones of English plosive consonants, the velar nasal and the lateral consonant, were made twice. First, the target words were read from the list by nine non-native speakers and then repeated after a phonology expert’s recorded sample. Afterwards, two recorded signal sets were segmented into allophones and parameterized. For that purpose, a set of descriptors, commonly employed in music information retrieval, was utilized to determine whether they are effective in allophone analysis. The phonology expert’s task was to evaluate the pronunciation accuracy of each uttered allophone. Extracted feature vectors along with the assigned ratings were applied to SOMs.

Projekt badawczy ALOFON

Pozycja nr 111

Typ pozycji: referat konferencyjny

Autorzy M. Piotrowska, S. Piotrowski, B. Kostek

Tytuł angielski A Study on Audio Signal Processed by "Instant Mastering"

Konferencja 142nd Audio Engineering Society Convention

Numer preprintu 9719

Numer

Wolumin

Strony

Miejsce konferencji Berlin, Niemcy

Data konferencji 20.5.2017- 23.5.2017

Abstract An increasing amount of music produced in home- and project-studios results in development and growth of "automatic mastering services". The presented investigation explores changes introduced to audio signal by various online mastering platforms. A music set consisting of 10 songs produced in small facilities was processed by eight on-line automatic mastering services. Additionally, some laboratory-constructed signals were tested. To determine, whether changes introduced to audio are invariable between trials, every music excerpt was submitted several times. For each sample, parameters related to music characteristics such as timbre, dynamics and loudness were calculated before and after processing. Results obtained enable to discover some of the mechanisms underlying tested automatic mastering services as well as discern similarities and differences between various platforms.

Projekt badawczy DS

Pozycja nr 112

Typ pozycji: referat konferencyjny

Autorzy M. Hoppe, B. Kostek

Tytuł polski Stworzenie stereofonicznej ścieżki dźwiękowej do filmu symulującej dźwięk wielokanałowy

Konferencja ISSET 2017, XVII Międzynarodowe Sympozjum Inżynierii i Reżyserii Dźwięku

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 13.10.2017- 15.10.2017

Streszczenie Celem referatu pracy jest przedstawienie procesu tworzenia stereofonicznej ścieżki dźwiękowej do filmu, symulującej dźwięk wielokanałowy w odsłuchu słuchawkowym. Opracowana symulacja dźwięku wielokanałowego wykorzystuje filtrację HRTF (ang. Head-Related-Transfer-Function). W celu umożliwienia jednoczesnego odsłuchu kilku partii instrumentalnych składających się na ścieżkę dźwiękową stworzona została aplikacja wraz z graficznym interfejsem użytkownika w środowisku Java. Interfejs pozwala użytkownikowi na wybór rozmieszczenia konkretnych partii instrumentalnych w odpowiednich miejscach w przestrzeni dźwiękowej oraz jednoczesny odsłuch wszystkich partii wraz z materiałem filmowym. Symulacja obejmuje dwa systemy odsłuchowe: system kwadrofoniczny oraz system 5.1. Każda partia instrumentalna została przefiltrowana parą filtrów odpowiadających położeniu głośników w powyższych systemach. Aplikacja została skonstruowana w taki sposób, aby użytkownik mógł porównać oba systemy przy takim samym rozmieszczeniu instrumentów, a następnie dokonać zmiany rozmieszczenia instrumentów i ponowny odsłuch. Dodatkowo dodano także możliwość odsłuchu ścieżki dźwiękowej w systemie stereofonicznym. W tej wersji ścieżka dźwiękowa stanowi downmix wszystkich partii instrumentalnych do dwóch kanałów. Na potrzeby ścieżki dźwiękowej został także przygotowany krótki film. W ramach badań zostały przeprowadzone dwie serie testów odsłuchowych. Pierwsza seria testów polegała na ocenie powyższych systemów w kontekście określonych parametrów. Druga seria testów przeprowadzona dla systemów 5.1 i kwadrofonii miała na celu określenie, w jakim stopniu poszczególne partie instrumentalne są poprawnie lokalizowane w przestrzeni.

Słowa kluczowe dźwięki wielokanałowy, odsłuch binauralny, ocena jakości dźwięku

Projekt badawczy DS

Pozycja nr 113

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Spaleniak, A. Kurowski, B. Kostek

Tytuł polski Wspomaganie komunikacji w procesie neurorehabilitacji z wykorzystaniem śledzenia wzroku i analizy sygnałów EEG

Czasopismo Zeszyty naukowe WE PG

Wolumin

Numer czasopisma 57

Strony 127 - 130

Rok 2017

Streszczenie W pracy przedstawiono charakterystykę systemu do wspomagania komunikacji w procesie neurorehabilitacji osób w stanie ograniczonej świadomości. Przygotowana aplikacja komputerowa wykorzystuje metodę śledzenia wzroku wspomaganą analizą sygnału EEG. W pracy podano genezę powstania systemu, scharakteryzowano zaimplementowane ćwiczenia oraz pozostałe funkcjonalności, a także zamieszczono wyniki wstępnych badań dokonanych w kilku polskich ośrodkach terapeutycznych.

Słowa kluczowe neurorehabilitacja, interfejsy HCI, śledzenie wzroku, elektroencefalografia

Projekt badawczy HCIBRAIN

Pozycja nr 114

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Odya, J. Kotus, M. Szczodrak, B. Kostek

Tytuł angielski Sound intensity distribution around organ pipe

Tytuł polski Rozkład natężenia dźwięku wokół piszczałki organowej

Czasopismo Archives of Acoustics

Wolumin 42

Numer czasopisma 1

Strony

Rok 2017

Uwagi Grant NCN - partially

Abstract The aim of the paper was to compare acoustic field around the open and stopped organ pipes. The wooden organ pipe was located in the anechoic chamber and activated with a constant air flow, produced by an external air-compressor. Thus, long-term steady state response was possible to obtain. Multichannel acoustic vector sensor was used to measure the sound intensity distribution of radiated acoustic energy. Measurements have been carried out on a defined fixed grid of points. A specialized Cartesian robot allowed for a precise positioning of the acoustic probe. Afterwards, the data were processed in order to obtain and visualize the sound intensity distribution around the pipe. The fact of opening or stopping the pipe affects the frequency of the generated sound, the sound pressure level and direction of propagation of acoustic energy. For the open pipe, another sound source was present at the top of the pipe. In this case, the streamlines in front of the pipe are propagated horizontally and in a greater distance from the pipe are directed downwards. For the stopped pipe, the streamlines of the acoustic flow were directed upwards. The results for both pipe types were compared and discussed in the paper.

Streszczenie Celem przeprowadzonych badań było uzyskanie rozkładu natężenia dźwięku wokół piszczałki organowej. W badaniach wykorzystano czujnik wektorowy oraz robota kartezjańskiego. Pomiary wykonano w komorze bezechowej przy zachowaniu stałego pobudzenia.

Słowa kluczowe organ pipe, sound field, sound intensity, cartesian robot

Projekt badawczy NCN_POM

Pozycja nr 115

Typ pozycji: referat konferencyjny

Autorzy D. Koszewski, K. Marciniuk, B. Kostek

Tytuł polski Badanie wierności brzmienia dźwięku instrumentów wirtualnych VST/TRTAS

Konferencja XVII Międzynarodowe Sympozjum Inżynierii i Reżyserii Dźwięku ISSET2017

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa,

Data konferencji 13.10.2017- 15.10.2017

Numer pozycji bibl. 8

Abstract The aim of this study is to check if nowadays virtual instruments (VST/RTAS), based on the sampling of acoustic instruments, allow realistically reproduce sound and articulation of an real instruments. The first part of this study provides sound synthesis methods and an overview of virtual instruments based on a sample synthesis. Practical part concerns arrange pieces of orchestral music tracks, then use VSTi plugins to create appropriate virtual instrument. The work is summarized by performing subjective tests answering the question whether today's virtual instruments can replace real ones.

Streszczenie Tematem referatu jest subiektywne badanie wierności brzmienia instrumentów wirtualnych (VST/TRTAS) wykorzystujących próbkowanie dźwięków rzeczywistych instrumentów muzycznych. Na potrzeby przedstawionej pracy wybrano kilka utworów muzyki orkiestrowej z epoki romantyzmu i klasycyzmu, nagranych przy użyciu instrumentów akustycznych. Następnie zaaranżowano fragmenty tych utworów, wykorzystując do tego instrumenty wirtualne i efekty cyfrowego przetwarzania sygnałów. W kolejnym kroku przeprowadzono testy subiektywne dla próbek oryginalnych i zsyntetyzowanych. W badaniach wzięła udział reprezentatywna grupa słuchaczy, składająca się zarówno z ekspertów pracujących na co dzień przy produkcjach muzycznych, jak i osób niedoświadczonych. Porównano stopień wierności odtworzenia brzmienia i artykulacji instrumentów akustycznych przez instrumenty wirtualne na przykładzie fragmentów zaaranżowanych utworów i ich oryginalnych wersji. Wyniki zostały poddane analizie statystycznej.

Słowa kluczowe VST, SAMPLING, AUDIO

Pozycja nr 116

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, P. Odya, P. Szczuko, M. Lech, P. Spaleniak, B. Kostek, A. Czyżewski

Tytuł angielski Multimodal System for Diagnosis and Polysensory Stimulation of Subjects with Communication Disorders

Konferencja 23rd International Symposium on Methodologies for Intelligent Systems ISMIS 2017

Numer preprintu

Numer

Wolumin

Strony 47 - 56

Miejsce konferencji Warszawa, Polska

Data konferencji 26.6.2017- 29.6.2017

Identyfikator DOI 10.1007/978-3-319-60438-1_5

Abstract An experimental multimodal system, designed for polysensory diagnosis and stimulation of persons with impaired communication skills or even non-communicative subjects is presented. The user interface includes an eye tracking device and the EEG monitoring of the subject. Furthermore, the system consists of a device for objective hearing testing and an autostereoscopic projection system designed to stimulate subjects through their immersion in a virtual environment. Data analysis methods are described, and experiments associated with classification of mental states during listening exercises as well as audio-visual stimuli are presented and discussed. Feature extraction was based on discrete wavelet transformation and clustering employing the k-means algorithm was designed. All algorithms were implemented in the Python programming language with the use of Open Source libraries. Tests of the proposed system were performed in a Special School and Educational Center in Koś-cierzyna, Poland. Results and comparison with data gathered from the control group of healthy people are presented and discussed.

Słowa kluczowe communication disorders, data clustering, EEG, multimodal interfaces, polysensory stimulation

Projekt badawczy HCIBRAIN

Pozycja nr 117

Typ pozycji: książka

Autorzy K. Marciniuk, B. Kostek, A. Czyżewski

Tytuł angielski Traffic Noise Analysis Applied to Automatic Vehicle Counting and Classification

Wydawca Springer, Multimedia Communications, Services and Security, MCSS 2017

Strony 110 - 123

Rok 2017

Identyfikator DOI 10.1007/978-3-319-69911-0_9

Uwagi Best paper

Abstract Problems related to determining traffic noise characteristics are discussed in the context of automatic dynamic noise analysis based on noise level measurements and traffic prediction models. The obtained analytical results provide the second goal of the study, namely automatic vehicle counting and classification. Several traffic prediction models are presented and compared to the results of in-situ noise level measurements. Synchronized audio recordings were made to determine Sound Quality parameters describing the nature of acquired sound signals. Video recordings and information about the traffic structure using commercially available automatic vehicle detection methods were also collected in order to create ground truth data used for the experiments.

Słowa kluczowe Traffic noise Audio parametrization Automatic dynamic noise map creation Automatic traffic counting and vehicle recognition

Projekt badawczy INPREDO

Pozycja nr 118

Typ pozycji: referat konferencyjny

Autorzy A. Dorochowicz, A. Majdańczuk, P. Hoffmann, B. Kostek

Tytuł angielski Classification of musical genres by means of listening tests and decision algorithms

Konferencja ISMIS 2017 : 23rd International Symposium on Methodologies for Intelligent Systems

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 26.6.2017- 29.6.2017

Numer pozycji bibl. 24

Abstract The paper compares the results of audio excerpt assignment to a music genre obtained in listening tests and classification by means of decision algorithms. A short review on music description employing music styles and genres is given. Then, assumptions of listening tests to be carried out along with an online survey for assigning audio samples to selected music genres are presented. A framework for music parametrization is created resulting in feature vectors, which are checked for data redundancy. Finally, the effectiveness of the automatic music genre classification employing two decision algorithms is presented. Conclusions contain the results of the comparative analysis of the results obtained in listening tests and automatic genre classification.

Słowa kluczowe MUSIC GENRE CLASSIFICATION, FEATURE EXTRACTION, LISTENING TESTS

Projekt badawczy DS

Pozycja nr 119

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek, P. Bratoszewski, J. Kotus, M. Szykulski

Tytuł angielski An audio-visual corpus for multimodal automatic speech recognition

Czasopismo Journ. of Intelligent Information Systems

Wolumin

Numer czasopisma

Strony 1 - 27

Rok 2017

Numer pozycji bibl. 54

Uwagi http://dx.doi.org/10.1007/s10844-016-0438-z

Abstract A review of available audio-visual speech corpora and a description of a new multimodal corpus of English speech recordings is provided. The new corpus containing 31 hours of recordings was created specifically to assist audio-visual speech recognition systems (AVSR) development. The database related to the corpus includes high-resolution, high-framerate stereoscopic video streams from RGB cameras, depth imaging stream utilizing Time-of-Flight camera accompanied by audio recorded using both: a microphone array and a microphone built in a mobile computer. For the purpose of applications related to AVSR systems training, every utterance was manually labeled, resulting in label files added to the corpus repository. Owing to the inclusion of recordings made in noisy conditions the elaborated corpus can also be used for testing robustness of speech recognition systems in the presence of acoustic background noise. The process of building the corpus, including the recording, labeling and post-processing phases is described in the paper. Results achieved with the developed audio-visual automatic speech recognition (ASR) engine trained and tested with the material contained in the corpus are presented and discussed together with comparative test results employing a state-of-the-art/commercial ASR engine. In order to demonstrate the practical use of the corpus it is made available for the public use.

Słowa kluczowe MODALITY corpus; English language corpus; Speech recognition; AVSR

Projekt badawczy MODALITY

Pozycja nr 120

Typ pozycji: patent

Autorzy B. Kostek, M. Dziubiński

Tytuł polski Algorytmy separacji miksów dźwięków instrumentów muzycznych

Numer patentu

Data zgłoszenia 23.2.2017

Uwagi rozwiązanie innowacyjne

Streszczenie Zaproponowane zostały cztery algorytmy separacji zmiksowanych dźwięków muzycznych. Na wejście algorytmu separacji podawane były dźwięki zmiksowane w warunkach braku wiedzy na temat rodzaju instrumentów muzycznych składających się na dźwięk zmiksowany. Opisywana metoda bazuje na dekompozycji składowych harmonicznych. Składowe te reprezentowane są jako przebiegi sinusoidalne o zmiennej w czasie fazie, amplitudzie i częstotliwości. Dzięki modelowaniu składowych harmonicznych przy pomocy powyższej reprezentacji, możliwe jest osiągnięcie znacznie większej rozdzielczości czasowoczęstotliwościowej niż w stosowanych do tej pory metodach separacji, bazujących na analizie STFT. Jednym z celów było ponadto opracowanie skutecznego algorytmu detekcji częstotliwości podstawowej dźwięków muzycznych. Jest to jeden z elementów procesu separacji, który wykorzystuje informację o częstotliwości podstawowej miksowanych dźwięków. Zaproponowany został taki algorytm i przebadany na znaczącej reprezentacji dźwięków muzycznych (1000 dźwięków syntetycznych i 567 dźwięków instrumentów akustycznych). Następnie wykazano, że zaproponowany algorytm nie popełnia błędów oktawowych i wyznacza częstotliwość podstawową dźwięku z dokładnością do pojedynczych centów dla całej skali muzycznej (średni błąd estymacji wyniósł 0.0108 % w stosunku do częstotliwości wzorcowej).

Słowa kluczowe separacja dźwięków instrumentów muzycznych, miks dźwięków, dekompozycja składowych harmonicznych, detekcja częstotliwości podstawowej, rozdzielczość czasowo-częstotliwościowa

Projekt badawczy DS

Pozycja nr 121

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Assessment of hearing in coma patients employing auditory brainstem response, electroencephalography, and eye-gaze-tracking

Tytuł polski Ocena słuchu u pacjentów w śpiączce z wykorzystaniem odpowiedzi słuchowej pnia mózgu, elektroencefalografii i śledzenia wzroku

Konferencja Acoustics'17 (Acoustical Society of America)

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Boston, USA

Data konferencji 25.6.2017- 29.6.2017

Identyfikator DOI 10.1121/1.4988794

Uwagi The Journal of the Acoustical Society of America 141, 3903 (2017)

Abstract The results of the study conducted by Tagliaferri et al. in 12 European countries indicate that the ratio of registered brain injury cases in Europe amounts to 150-300 per 100 000 people, with the European mean value of 235 cases per 100 000 people. The project presented in the paper assumes development of a combined metric of patients’ state remaining in coma by intelligent fusion of GCS (subjective Glasgow Coma Scale or its derivatives) with objective data acquired using ABR (Auditory Brainstem Response), EEG (electroencephalography), and EGT (Eye-Gaze-Tracking). Variety of coma patients from cooperating medical care centers were examined. Senses examination involved the assessment of their function by a medical specialist, with special attention paid to hearing tests results obtained with an ABR measuring device. The assessment included speech-based cognitive functions such as comprehension, phonematic hearing and auditory gnosia. Achieved results are discussed in the paper showing that most patients remaining in coma after a severe brain injury have preserved the ability to receive sound stimuli. [The project was partially funded by the Polish National Science Centre on the basis of the decision No. DEC-2014/15/B/ST7/04724.]

Streszczenie Wyniki badania przeprowadzonego przez Tagliaferri et al. w 12 krajach europejskich wskazuje, że stosunek zarejestrowanych przypadków obrażeń mózgu w Europie wynosi 150-300 na 100 000 osób, przy średniej europejskiej wynoszącej 235 przypadków na 100 000 osób. Przedstawiony projekt zakłada opracowanie połączonego wskaźnika stanu pacjentów pozostających w stanie śpiączki poprzez inteligentną syntezę GCS (subiektywna skala Glasgow Coma Scale lub jej pochodne) z obiektywnymi danymi uzyskanymi przy użyciu ABR (Auditory Brainstem Response), EEG (elektroencefalografia), i EGT (Eye-Gaze-Tracking). Badano różnorodność pacjentów w śpiączce ze współpracujących ośrodków opieki medycznej. Badanie zmysłów obejmowało ocenę ich funkcji przez lekarza specjalistę, ze szczególnym uwzględnieniem wyników badań słuchu uzyskanych za pomocą urządzenia pomiarowego ABR. Ocena obejmowała funkcje kognitywne oparte na mowie, takie jak rozumienie, słuch fonemiczny i gnoza słuchowa. Osiągnięte wyniki zostały omówione w artykule pokazującym, że większość pacjentów pozostających w śpiączce po ciężkim uszkodzeniu mózgu zachowało zdolność do odbierania bodźców dźwiękowych. [Projekt był częściowo finansowany przez Narodowe Centrum Nauki na podstawie decyzji nr DEC-2014/15 / B / ST7 / 04724.]

Słowa kluczowe urazy mózgowe; śpiączka; badanie słuchu

Projekt badawczy HCIBRAIN

Pozycja nr 122

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, B. Kostek, A. Czyżewski

Tytuł angielski Classifying type of vehicles on the basis of data extracted from audio signal characteristics

Czasopismo J. Acoust. Soc. Amer.

Wolumin 141

Numer czasopisma 5

Strony 3883 - 3883

Rok 2017

Identyfikator DOI https://doi.org/10.1121/1.4988697

Abstract The aim of this study is to find and optimize a feature vector for an automatic recognition of the type of vehicles, extracted form an audio signal. First, the influence of weather-based conditions of road surface on spectral characteristic of the audio signal recorded from a passing vehicle in close proximity to the road is discussed. Next, parameterization of the recorded audio signal is performed. For that purpose, the MIRtoolbox, designed for music parameter extraction, is used to obtain a vector of parameters. Correlation analyses are performed to check whether extracted parameters enable to separate selected types of vehicle-associated noise, e.g.: car, truck and motorcycle. Behrens-Fisher statistics is used to find the most suitable parameters that may be contained in the optimized feature vector. The last step is to build a decision system that allows for the automatic classification of a vehicle type. The results of automatic classification of prepared vehicle-noise related samples are shown and discussed. Research was supported by the Polish National Centre for Research and Development within the grant No. OT4- 4B/AGH-PG-WSTKT.

Słowa kluczowe VEHICLE CLASSIFICATION, AUDIO PROCESSING, PARAMETERS EXTRACTION

Projekt badawczy INPREDO

Pozycja nr 123

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Plewa

Tytuł angielski Rough Sets Applied to Mood of Music Recognition

Tytuł polski Wnioskowanie przybliżone w zastosowaniu do przetwarzania danych muzycznych

Konferencja Federated Conference on Computer Science and Information Systems

Numer preprintu

Numer

Wolumin ISBN 978-83-60810-90

Strony 71 - 78

Miejsce konferencji Gdansk, Poland

Data konferencji 11.9.2016- 14.9.2016

Uwagi http://dx.doi.org/10.15439/2016F548

Abstract With the growth of accessible digital music libraries over the past decade, there is a need for research into automated systems for searching, organizing and recommending music. Mood of music is considered as one of the most intuitive criteria for listeners, thus this work is focused on the emotional content of music and its automatic recognition. The research study presented in this work contains an attempt to music emotion recognition including audio parameterization and rough sets. A music set consisting of 154 excerpts from 10 music genres was evaluated in the listening experiment. This may be treated as a ground truth. The results achieved indicated a strong correlation between subjective results and objective descriptors and on that basis a vector of parameters related to mood of music was created. On the other hand, rough set-based processing was applied to derive reducts containing the most promising features in the context of mood recognition, as well as confusion matrices of the mood recognition. Both approaches indicate strong relationship between objective descriptors and subjective evaluation of mood of music.

Streszczenie Dane: Proceedings of the 2016 Federated Conference on Computer Science and Information Systems, M. Ganzha, L. Maciaszek, M. Paprzycki (eds). ACSIS, Vol. 8, pages 71–78 (2016). Proc. w WoS W referacie przedstawiono zagadnienia związane z automatycznym przetwarzaniem nastroju w muzyce za pomocą zbiorów przybliżonych. W eksperymentach wykorzystano próbki sygnałów muzycznych należących do 10 gatunków muzycznych. Badania objęły porównanie wyników analiz z przetwarzania przybliżonego z wynikami testów subiektywnych.

Słowa kluczowe zbiory przybliżone, nastrój w muzyce, automatyczne rozpoznawanie danych muzycznych; ang. rough sets, mood of music, automatic music recognition

Projekt badawczy DS

Pozycja nr 124

Typ pozycji: referat konferencyjny

Autorzy A. Dorochowicz, A. Majdańczuk, P. Hoffmann, B. Kostek

Tytuł angielski Comparison of classification of musical genre results obtained by subjective tests and decision algorithms

Konferencja XVI Międzynarodowe Sympozjum Nowości w Technice Audio i Wideo

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Rzeszów, Polska

Data konferencji 13.10.2016- 15.10.2016

Numer pozycji bibl. 24

Streszczenie Celem pracy jest przeprowadzenie testów subiektywnych rozróżniania gatunku muzycznego przez słuchaczy oraz dokonanie automatycznej klasyfikacji gatunków muzycznych przy pomocy wybranych algorytmów uczących się. W pierwszej kolejności przywołano genezę podziału na gatunki muzyczne. W ramach pracy zrealizowana została ankieta internetowa w celu umożliwienia odsłuchu i przypisania próbek dźwiękowych do wybranych gatunków muzycznych za pomocą odpowiednio przygotowanego interfejsu. Dodatkowo, dokonano parametryzacji wybranych utworów muzycznych oraz zbadano skuteczność automatycznej klasyfikacji gatunków muzycznych. W końcowej części porównano wskazania słuchaczy i wyniki klasyfikacji uzyskane za pomocą algorytmów uczących się.

Słowa kluczowe GENRE RECOGNITION, MUSIC PROCESSING, DECISION ALGORITHMS, K-NN, BAYESNET, SUBJECTIVE,

Projekt badawczy DS

Pozycja nr 125

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szczodrak, A. Kurowski, J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski A system for acoustic field measurement employing cartesian robot

Czasopismo METROLOGY AND MEASUREMENT SYSTEMS

Wolumin 23

Numer czasopisma 3

Strony 333 - 343

Rok 2016

Identyfikator DOI 10.1515/mms-2016-0037

Abstract A system setup for measurements of acoustic field, together with the results of 3D visualisations of acoustic energy flow are presented in the paper. Spatial sampling of the field is performed by a Cartesian robot. Automatization of the measurement process is achieved with the use of a specialized control system. The method is based on measuring the sound pressure (scalar) and particle velocity (vector) quantities. The aim of the system is to collect data with a high precision and repeatability. The system is employed for measurements of acoustic energy flow in the proximity of an artificial head in an anechoic chamber. In the measurement setup an algorithm for generation of the probe movement path is included. The algorithm finds the optimum path of the robot movement, taking into account a given 3D object shape present in the measurement space. The results are presented for two cases, first without any obstacle and the other - with an artificial head in the sound field.

Słowa kluczowe Cartesian robot, sound intensity, sound field, anechoic chamber

Projekt badawczy NCN_POM

Pozycja nr 126

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, M. Szczodrak, B. Kostek

Tytuł angielski Performance of Noise Map Service Working in Cloud Computing Environment

Tytuł polski Badanie wydajności i skuteczności algorytmu serwisu Mapy Hałasu pracującego jako usługa chmurowa do wyznaczania dynamicznych map hałasu

Czasopismo Archives of Acoustics

Wolumin 41

Numer czasopisma 2

Strony 297 - 302

Rok 2016

Identyfikator DOI 10.1515/aoa-2016-0029

Numer pozycji bibl. 22

Uwagi 10.1515/aoa-2016-0029 https://www.degruyter.com/downloadpdf/j/aoa.2016.41.issue-2/aoa-2016-0029/aoa-2016-0029.xml

Abstract In the paper a noise map service designated for the user interested in environmental noise subject is presented. It is based on cloud computing. Noise prediction algorithm and source model, developed for creating acoustic maps, are working in cloud computing environment. In the study issues related to noise modeling of sound propagation in urban spaces are discussed with a special focus on road noise. Examples of results obtained employing a web application created for that purpose are shown. Also, a comparison between the web-based results and those obtained from the commercial software simulations for two road noise prediction models is carried out. The user-interface design and ergonomics of the web application developed, as well its computing efficiency, are tested and analyzed. In the paper a flowchart simulating the operation of the noise webbased service is presented showing that the created application is easy to use even for people with little experience in computers.

Streszczenie Artykuł dotyczył wyznaczania map hałasu z wykorzystaniem usługi GRIDowej. Omówiono metody dostępu do danych, zasady poruszania się po portalu. Wyniki uzyskane za pomocą algorytmu na platformie zestawiono z wynikami uzyskanymi z programu CadnaA dla kilku modeli propagacyjnych. W pracy przedstawiono złożoność algorytmu i jego zapotrzebowania na zasoby, przedstawiono wzór na optymalną rezerwacje zasobów.

Słowa kluczowe CLOUD COMPUTING, DYNAMIC NOISE MAP, NOISE MAPS, SOUND PROPAGATION

Projekt badawczy INPREDO

Pozycja nr 127

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski , K. Marciniuk, B. Kostek

Tytuł angielski Dynamic Road Traffic Density Estimation Employing Noise Mapping with the Use of Grid Supercomputing

Tytuł polski Dynamiczne szacowanie natężenia ruchu drogowego z wykorzystaniem odwzorowania hałasu z pomocą superkomputera

Konferencja Acoustical Society of America 2016 Meeting

Numer preprintu 2478337

Numer

Wolumin

Strony

Miejsce konferencji Salt Lake City, USA

Data konferencji 23.5.2016- 27.7.2016

Identyfikator DOI 10.1121/1.4949894

Abstract A noise prediction model of a large city agglomeration was elaborated in order to allow for a dynamic road traffic density estimation in vehicular networks. The implemented application adopts the model fed with traffic noise data based on frequently refreshed LDEN levels. Calculations were made with the use of the numerical model developed for his purpose and then implemented on the PL-Grid supercomputing infrastructure. Data obtained through supercomputing and through the use of a standard noise map computing software were collated with measured levels acquired from the acoustic city monitoring system and then analyzed. The comparison performed afterwards shows a relatively good accuracy of the developed model. The numerical model of traffic noise and its main sources are briefly characterized. A full day dynamic noise map can be browsed as a set of 24 noise maps, one for each hour of the day which in turn allows for vehicular traffic density estimation based exclusively on acoustical data.

Streszczenie Model przewidywania hałasu dużego miasta aglomeracji został opracowany, aby umożliwić dynamiczne szacowanie natężenia ruchu drogowego. Wdrożona aplikacja przyjmuje model zasilany danymi dotyczącymi hałasu ruchu w oparciu o często odświeżane poziomy LDEN. Obliczenia wykonano z wykorzystaniem numerycznego modelu, a następnie wdrożony na infrastrukturze PL-Grid Model numeryczny hałasu komunikacyjnego i jego główne źródła zostały krótko scharakteryzowane. Mapę całodniową dynamiczną hałasu można przeglądać jako zestaw 24 map hałasu, dla każdej pory dnia, co z kolei pozwala na oszacowanie gęstości ruchu kołowego opiera się wyłącznie na danych akustycznych.

Słowa kluczowe ruch drogowy; hałas pojazdów

Projekt badawczy INPREDO

Pozycja nr 128

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Szczuko, J. Kotus, M. Szczodrak, A. Czyżewski

Tytuł angielski Vibration analysis of acoustic guitar string employing high-speed video cameras

Konferencja Spring (171st) 2016 Meeting of the Acoustical Society of America

Numer preprintu

Numer

Wolumin

Strony 1 - 1

Miejsce konferencji Salt Lake City, USA

Data konferencji 23.5.2016- 27.5.2016

Identyfikator DOI 10.1121/1.4950573

Abstract A method of analysis and visualization of displacements of an acoustic guitar string is presented. Vibrations of the strings are recorded using high-speed cameras. The optical system used for the recording is applied in order to make it possible to observe the vibrations along the string. Images recorded with high-speed cameras are analyzed using digital signal processing algorithms in order to track the shape of deflections and displacement of strings, with a high spatial resolution, and to convert the acquired video data into an acoustic signal. The acoustic signal derived from the visual analysis is then compared with a reference signal which was recorded simultaneously using a measurement microphone. The research experiments are aimed principally at studying the phenomena related to energy transfer of vibrating strings to the body of the instrument. [This research study was supported by the grant, funded by the Polish National Science Centre, decision number DEC-2012/05/B/ST7/02151.]

Słowa kluczowe FAST CAMERAS, GUITAR STRING VIBRATIONS, VIBRATION ANALYSIS

Projekt badawczy NCN_POM

Pozycja nr 129

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, K. Marciniuk, B. Kostek

Tytuł angielski Separability Assessment of Selected Types of Vehicle-Associated Noise

Konferencja The 10th International Conference on Multimedia and Network Information Systems

Numer preprintu

Numer 10

Wolumin 506

Strony 113 - 121

Miejsce konferencji Wrocław, Polska

Data konferencji 14.9.2016- 16.9.2016

Identyfikator DOI 10.1007/978-3-319-43982-2_10

Uwagi link: http://dx.doi.org/10.1007/978-3-319-43982-2_10, do projektu INPREDO; Advances in Intelligent Systems and Computing, Springer Verlag

Abstract Music Information Retrieval (MIR) area as well as development of speech and environmental information recognition techniques brought various tools intended for recognizing low-level features of acoustic signals based on a set of calculated parameters. In this study, the MIRtoolbox MATLAB tool, designed for music parameter extraction, is used to obtain a vector of parameters to check whether they are suitable for separation of selected types of vehicle-associated noise, i.e.: car, truck and motorcycle. Then, cross-correlation between pairs of parameters is calculated. Parameters for which absolute value of cross-correlation factor is below a selected threshold, are chosen for further analysis. Subsequently, pairs of parameters found in the previous step are analyzed as a graph of low-correlated parameters with the use of the Bron-Kerbosch algorithm. Graph is checked for existence of cliques of parameters linked in all-to-all manner related to their low correlation. The largest clique of low-correlated parameters is then tested for suitability for separation into three vehicle noise classes. Behrens-Fisher statistic is used for this purpose. Results are visualized in the form of 2D and 3D scatter plots.

Słowa kluczowe Bron-Kerbosch algorithm, low-level features, MIRtoolbox, vehicle-associated noise

Projekt badawczy INPREDO

Pozycja nr 130

Typ pozycji: książka

Autorzy A. Dorochowicz, A. Majdańczuk, P. Hoffmann, B. Kostek

Tytuł polski Porównanie wyników klasyfikacji gatunków muzycznych uzyskanych za pomocą testów subiektywnych i algorytmów uczących się

Wydawca Polska Sekcja Audio Engineering Society, Uniwersytet Rzeszowski, Wydział Matematyczno-Przyrodniczy, Katedra Mechatroniki i Automatyki Politechnika Wrocławska, Wydział Elektroniki, Katedra Akustyki i M

Strony 27 - 46

Rok 2016

Numer pozycji bibl. 24

Streszczenie Celem pracy jest przeprowadzenie testów subiektywnych rozróżniania gatunku muzycznego przez słuchaczy oraz dokonanie automatycznej klasyfikacji gatunków muzycznych przy pomocy wybranych algorytmów uczących się. W pierwszej kolejności przywołano genezę podziału na gatunki muzyczne. W ramach pracy zrealizowana została ankieta internetowa w celu umożliwienia odsłuchu i przypisania próbek dźwiękowych do wybranych gatunków muzycznych za pomocą odpowiednio przygotowanego interfejsu. Dodatkowo, dokonano parametryzacji wybranych utworów muzycznych oraz zbadano skuteczność automatycznej klasyfikacji gatunków muzycznych. W końcowej części porównano wskazania słuchaczy i wyniki klasyfikacji uzyskane za pomocą algorytmów uczących się.

Słowa kluczowe GENRE RECOGNITION, MUSIC PROCESSING, DECISION ALGORITHMS, K-NN, BAYES, SUBJECTIVE

Pozycja nr 131

Typ pozycji: patent

Autorzy M. Lech, B. Kostek, A. Czyżewski

Tytuł angielski Method and system for audio mixing

Tytuł polski Układ do miksowania dźwięku

Numer patentu 223813

Data zgłoszenia 30.11.2016

Uwagi nr zgł. 395458, data zgł. 2011-06-28, nr WUP 11/2016, data pub. WUP 2016-11-30, nr, BUP 01/2013, data pub. BUP 2013-01-07

Streszczenie Sposób miksowania dźwięku polegający na zmianie parametrów i sterowaniu parametrami sygnału zapisanego na poszczególnych ścieżkach dźwiękowych składających się na końcowy sygnał foniczny za pomocą aplikacji komputerowej udostępniającej operacje miksowania dźwięku charakteryzuje się tym, że określone operacje miksowania wybiera się i wykonuje bezkontaktowo za pomocą gestów obiektów sterujących (OS) odbieranych przez moduł akwizycji gestów (K), które po ich przetworzeniu metodami cyfrowymi w urządzeniu sterującym (U) współpracującym z komputerem (C) wykorzystuje się do generowania sygnałów elektronicznych sterujących wyborem operacji miksowania dla aplikacji komputerowej udostępniającej operacje miksowania dźwięku, przy czym użytkownik dowolnie określa i modyfikuje powiązania gestów z poszczególnymi operacjami miksowania. System miksowania dźwięku zawiera zespół głośników (G) współpracujących z komputerem (C) wyposażonym w aplikację komputerową (AM) udostępniającą operacje miksowania dźwięku i wyposażony jest w urządzenie sterujące (U) sprzężone z komputerem (C) i posiadające moduł akwizycji gestów (K) sprzężony bezkontaktowo z obiektami sterującymi (OS).

Słowa kluczowe miksowanie dźwięku; akwizycja gestów

Projekt badawczy DS

Pozycja nr 132

Typ pozycji: patent

Autorzy B. Kostek, P. Hoffmann, T. Sanner

Tytuł angielski Method for improving the sound quality in portable electronic devices and the circuit for execution of this method

Tytuł polski Sposób i układ realizujący poprawę jakości brzmienia dźwięku w przenośnych urządzeniach elektronicznych

Numer patentu 225364

Data zgłoszenia 2016

Uwagi nr zgł. 408563, data zgł. 2014-06-16, data pub. WUP 2017-03-31, data BUP 2015-12-21, nr BUP 26/2015

Streszczenie Sposób charakteryzuje się tym, że z urządzenia elektronicznego (UE) pozyskuje się próbkę dźwiękową (SP), którą powiela się na trzy kopie, które obrabia się, korzystnie przy pomocy algorytmów i baz danych zaimplementowanych w komputerowym systemie zarządzania. Pierwszą kopię stanowiącą sygnał do klasyfikacji, wykorzystuje się do klasyfikacji gatunku muzycznego, drugą kopię stanowiącą sygnał do modyfikacji wykorzystuje się do modyfikacji sygnału w celu poprawy jakości brzmienia w oparciu o parametry określające gatunek muzyczny, a trzecią kopię stanowiącą sygnał do sumowania wykorzystuje się do uzupełnienia zmodyfikowanego sygnału o oryginalny zakres próbki dźwiękowej (SP). Uzyskany zmodyfikowany sygnał (BZ3) sumuje się z opóźnionym sygnałem (CZ1) w sumatorze (11). Uzyskany sygnał finalny (SF) przesyła się do urządzenia elektronicznego (UE).

Projekt badawczy DS

Pozycja nr 133

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski A concept of Signal Equalization Method Based on Music Genre and the Listener's Room Characteristics

Konferencja Signal Processing Algorithms, Architectures, Arrangements, and Applications, SPA 2016

Numer preprintu

Numer

Wolumin

Strony 213 - 218

Miejsce konferencji Poznań, Polska

Data konferencji 21.9.2016- 23.9.2016

Numer pozycji bibl. 17

Abstract A research study that investigates the influence of the room acoustics environment on the frequency characteristic of the audio signal playback is presented. First, a novel spectral equalization method of the room acoustic conditions is introduced. On the basis of the frequency response of the room, a system for room acoustics compensation based on eight-band equalizer is proposed. The system settings depend on music genre. In order to acquire room acoustic characteristics, a series of measurements are performed. Reverberation times and frequency responses of four rooms are acquired. White noise serving as reference signal and audio excerpts belonging to six music genres are utilized in measurements. For audio normalization LUFS (Loudness Unit, referenced to Full Scale) scale is employed, therefore all audio tracks are adjusted to -23 LUFS signal level. Recorded signals in the listener’s receiver position are then used to obtain room equalization characteristics. A comparison between the results obtained with the method introduced and a traditional graphic equalizer, based on preliminary subjective tests, is given. It is shown that room equalization based on the method proposed is effective in room acoustic deficiencies improvement.

Słowa kluczowe Digital Signal Processing, Room acoustic equalization, LUFS (Loudness Unit, referenced to Full Scale), music genre

Projekt badawczy DS

Pozycja nr 134

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, T. Ciszewski, B. Kostek

Tytuł angielski Methodology and technology for the polymodal allophonic speech transcription

Tytuł polski Metodologia i technologia wielomodalnej transkrypcji mowy

Czasopismo J. Acoust. Soc. Amer.

Wolumin 139

Numer czasopisma 4

Strony 2017 - 2017

Rok 2016

Uwagi http://dx.doi.org/10.1121/1.4949947

Abstract A method for automatic audiovisual transcription of speech employing: acoustic, electromagnetical articulography and visual speech representations is developed. It adopts a combining of audio and visual modalities, which provide a synergy effect in terms of speech recognition accuracy. To establish a robust solution, basic research concerning the relation between the allophonic variation of speech, i.e., the changes in the articulatory setting of speech organs for the same phoneme produced in different phonetic environments and the objective signal parameters (both audio and video) is carried out. The method is sensitive to minute allophonic detail as well as to accentual differences. It is shown that by using the analysis of video signals together with the acoustic signal, speech transcription can be performed more accurately and robustly than by using the acoustic modality alone. In particular, various features extracted from the visual signal are tested for their abilities to encode allophonic variations in pronunciation. New methods for modeling the accentual and allophonic variation of speech are developed.

Słowa kluczowe Allophonic speech transcription;

Projekt badawczy ALOFON

Pozycja nr 135

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Plewa, A. Czyżewski

Tytuł angielski Material for Automatic Phonetic Transcription of Speech Recorded in Various Conditions

Tytuł polski Materiał foniczno-wizyjny nagrany w różnych warunkach na potrzeby automatycznej transkrypcji mowy

Konferencja 141 Audio Eng. Soc. Convention

Numer preprintu 9648

Numer

Wolumin

Strony 1 - 9

Miejsce konferencji Los Angeles, USA

Data konferencji 29.9.2016- 2.10.2016

Uwagi wersja elektroniczna, http://www.aes.org/e-lib/browse.cfm?elib=18452

Abstract Automatic speech recognition (ASR) is under constant development, especially in cases when speech is casually produced or it is acquired in various environment conditions, or in the presence of background noise. Phonetic transcription is an important step in the process of full speech recognition and is discussed in the presented work as the main focus in this process. ASR is widely implemented in mobile devices technology, but the need is also encountered in applications such as automatic recognition of speech in movies for non-native speakers, for impaired users, and as a support for multimedia systems. This work contains an attempt to analyze speech recorded in various conditions. First, audio and video recordings of specially constructed list of words in English were prepared in order to perform dedicated audio and video analyses in the future stages of the research aiming at audio-visual speech recognition systems (AVSR) development. A dataset of audio-video recordings was prepared and examples of analyses are described in the paper.

Streszczenie W referacie przedstawiono materiał foniczno-wizyjny nagrany w różnych warunkach akustycznych. Zawarto w nim przykłady analiz oraz przedstawiono dyskusję wyników w kontekście możliwości automatycznej transkrypcji mowy.

Słowa kluczowe baza nagrań foniczno-wizyjnych, analiza fonetyczne mowy, rozpoznawanie mowy

Projekt badawczy ALOFON

Pozycja nr 136

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, A. Ciarkowski, B. Kostek, J. Kotus, K. Łopatka, P. Suchomski

Tytuł angielski Adaptive Personal Tuning of Sound in Mobile Computers

Czasopismo J. Audio Eng. Soc.

Wolumin 64

Numer czasopisma 6

Strony 405 - 428

Rok 2016

Uwagi https://doi.org/10.17743/jaes.2016.0014

Abstract An integrated methodology for enhancing audio quality in mobile computers is presented, whose key features are adapting the acoustic track to changing acoustic conditions of the environment, and matching audio characteristics to the users’ individual preferences. Signal processing algorithms included linearizing the frequency response, enhancing dialogue intelligibility, and adjusted dynamics to the users’ hearing characteristics. Algorithms were tested on two different computers (an All-in-one and a laptop), both of which were located in quiet office-like conditions but in the presence of strong noise. In general, test results showed that audio processing methods were useful tools for the improvement of the sound quality in compact computers. For example, although most the listeners were untrained, the processing for speech clarity in noise (dialogue enhancement and dynamics processing) yielded the highest scores. The majority of the results indicated that listeners perceive the processing as being desirable and useful.

Słowa kluczowe urządzenia mobilne, poprawa jakości sygnału, dopasowanie charakterystyki dźwięku do indywidualnych potrzeb słuchacza, linearyzacja odpowiedzi częstotliwościowej, dopasowanie dynamiki, poprawa zrozumiałości

Projekt badawczy MODALITY

Pozycja nr 137

Typ pozycji: artykuł w czasopiśmie

Autorzy T. Ciszewski, A. Czyżewski, B. Kostek

Tytuł angielski Methodology and technology for the polymodal allophonic speech transcription

Tytuł polski Metodyka i technologia wielomodalnej transkrypcji mowy

Czasopismo Proc. of Meetings on Acoustics, Acoustical Society of America

Wolumin 26

Numer czasopisma

Strony 1 - 15

Rok 2016

Uwagi doi: 10.1121/2.0000300

Abstract A method for automatic audiovisual transcription of speech employing: acoustic and visual speech representations is developed. It adopts a combining of audio and visual modalities, which provide a synergy effect in terms of speech recognition accuracy. To establish a robust solution, basic research concerning the relation between the allophonic variation of speech, i.e. the changes in the articulatory setting of speech organs for the same phoneme produced in different phonetic environments and the objective signal parameters (both audio and video) is carried out. The method is sensitive to minute allophonic detail as well as to accentual differences. It is shown that by using the analysis of video signals together with the acoustic signal, speech transcription can be performed more accurately and robustly than by using the acoustic modality alone. In particular, various features extracted from the visual signal are tested for their abilities to encode allophonic variations in pronunciation. New methods for modeling the accentual and allophonic variation of speech are developed.

Streszczenie Publikacja opisuje sposób automatycznej transkrypcji audiowizualnej mowy w oparciu o: akustyczną i wizualną reprezentację mowy. Założono łączenie modalności audio i wizualnej, które zapewniają efekt synergii w zakresie dokładności rozpoznawania mowy. W szczególności nacisk położono na wydobywania różnnych cech z zapisu wizyjnego, które zostały przetestowane pod kątem ich przydatności do reprezentowania różnic w wymowie na poziomie alofonicznym. N

Projekt badawczy ALOFON

Pozycja nr 138

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski DETERMINING THE ROAD SURFACE CONDITION AND TYPE OF VEHICLES ON THE BASIS OF DATA EXTRACTED FROM AUDIO SIGNAL CHARACTERISTICS

Tytuł polski ANALIZA STANU NAWIERZCHNI I KLAS POJAZDÓW NA PODSTAWIE PARAMETRÓW EKSTRAHOWANYCH Z SYGNAŁU FONICZNEGO

Czasopismo Zeszyty naukowe WE PG

Wolumin 51

Numer czasopisma

Strony 115 - 118

Rok 2016

Abstract The aim of this study is to find a feature vector for an automatic recognition of road surface conditions and the type of vehicles, extracted form an audio signal. First, the influence of weather-based conditions of road surface on spectral characteristic of the audio signal recorded from a passing vehicle in close proximity to the road is shortly discussed. Next, parameterization of the recorded audio signal is performed and examples of the correlation analyses are presented in the context of the class separability. Behrens-Fisher statistics is used to find the most suitable parameters that may be contained in the optimized feature vector.

Streszczenie Celem badań jest poszukiwanie parametrów wektora cech ekstrahowanego z sygnału fonicznego w kontekście automatycznego rozpoznawania stanu nawierzchni jezdni oraz typu pojazdów. W pierwszej kolejności przedstawiono wpływ warunków pogodowych na charakterystykę widmową sygnału fonicznego rejestrowanego przy przejeżdżających pojazdach. Następnie, dokonano parametryzacji sygnału fonicznego oraz przeprowadzano analizę korelacyjną w celu przedstawienia separowalności klas na podstawie ekstrahowanych parametrów. W procesie optymalizacji proponowanego wektora cech wykorzystano statystykę Behrensa-Fishera.

Słowa kluczowe analiza ruchu drogowego, parametryzacja sygnałów fonicznych, MIRtoolbox.

Projekt badawczy INPREDO

Pozycja nr 139

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Edytor czasopisma

Czasopismo IEEE/ACM Transactions on Audio, Speech, and Language Processing;

Wolumin 24

Numer czasopisma 1-6

Strony

Rok 2016

Uwagi Edytor czasopisma

Projekt badawczy DS

Pozycja nr 140

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Kurowski, J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski NUMERICAL SIMULATION OF THE SOUND INTENSITY DISTRIBUTION IN THE PROXIMITY OF THE ACOUSTIC DIFFUSER

Tytuł polski Pomiar rozkładu wektora natężenia dźwięku w pobliżu dyfuzora akustycznego weryfikowany symulacją komputerową

Czasopismo Zeszyty naukowe WE PG

Wolumin 51

Numer czasopisma

Strony 97 - 101

Rok 2016

Streszczenie Projektowanie adaptacji akustycznej pomieszczeń jest złożonym procesem, który wymaga możliwości przewidywania wpływu zastosowanych ustrojów akustycznych na sposób propagacji fal akustycznym w pomieszczeniu. Przykładem ustroju stosowanego do korekcji akustyki pomieszczeń jest dyfuzor akustyczny. Niniejsza praca opisuje proces pomiaru oraz numerycznej symulacji rozkładu wektora natężenia akustycznego w pobliżu dyfuzora. Analiza tego rozkładu pozwala zaobserwować zjawisko transportu energii akustycznej w pobliżu badanego obiektu. Wyniki badań przedstawiono w formie graficznej. Przygotowane zostały także mapy różnic pomiędzy rozkładem wektora natężenia dźwięku zmierzonego bez i z dyfuzorem. Jako obiekt referencyjny wykorzystana została płaska powierzchnia odbijająca. Dzięki takiemu podejściu możliwe było zaobserwowanie i opisanie wpływu zjawiska rozproszenia dźwięku przez dyfuzor na rozkład otaczającego pola akustycznego

Słowa kluczowe dyfuzor akustyczny; akustyka pomieszczeń; wektor natężenia akustycznego; metoda elementów brzegowych

Projekt badawczy NCN_POM

Pozycja nr 141

Typ pozycji: książka

Autorzy K. Marciniuk, A. Kurowski, B. Kostek

Tytuł polski Współczesne zagadnienia techniki fonicznej, wizyjnej i medycznej

Wydawca Polska Sekcja Audio Engineering Society, Uniwersytet Rzeszowski, Wydział Matematyczno-Przyrodniczy, Katedra Mechatroniki i Automatyki Politechnika Wrocławska, Wydział Elektroniki, Katedra Akustyki i M

Strony 139 - 149

Rok 2016

Uwagi w druku, ISBN: 978-83-946985-0-8

Streszczenie Akustyczna detekcja pojazdów jest najmniej inwazyjnym sposobem kontroli natężenia ruchu pojazdów w miastach. Charakteryzuje się ona również większą odpornością na warunki oświetleniowe i pogodowe. W niniejszym referacie przedstawiono wyniki parametryzacji sygnałów fonicznych dla sygnałów przejeżdżających pojazdów w kontekście zmian warunków atmosferycznych. W ramach badań przeprowadzono rejestrację wideofoniczną pojazdów w dwóch wybranych lokalizacjach, między innymi dla drogi ekspresowej oraz drogi o niższym natężeniu pojazdów. Sesje nagraniowe prowadzone były przy różnych warunkach atmosferycznych, z uwzględnieniem różnic w widmie sygnału fonicznego dla jezdni mokrej i suchej.

Słowa kluczowe klasyfikacja odgłosów, ruch drogowy, sieć neuronowa, MIR Toolbox

Projekt badawczy INPREDO

Pozycja nr 142

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski AUDIO SIGNAL CORRECTION ALGORITHM BASED ON THE ROOM FREQUENCY CHARACTERISTICS AND MUSIC GENRE

Tytuł polski Koncepcja korekcji sygnału dźwiękowego z uwzględnieniem charakterystyk częstotliwościowych pomieszczenia oraz gatunku muzycznego

Konferencja XXVI Seminarium ZASTOSOWANIE KOMPUTERÓW W NAUCE I TECHNICE 2016

Numer preprintu

Numer

Wolumin 51

Strony 63 - 66

Miejsce konferencji Gdańsk, Polska

Data konferencji 6.12.2016- 6.12.2016

Uwagi powinien być zgłoszony jako artykuł Zeszyty Naukowe WEiA

Streszczenie W artykule została przedstawiona koncepcja automatycznego systemu korekcji z uwzględnieniem charakterystyki częstotliwościowej pomieszczenia oraz odtwarzanego gatunku muzycznego. Proponowany algorytm na podstawie charakterystyki częstotliwościowej pomieszczenia dokonuje kompensacji warunków akustycznych w otoczeniu emitera dźwięku. Dodatkowo w procesie kompensacji uwzględniana jest zawartość sygnału poprzez rozpoznanie rodzaju gatunku muzycznego. W artykule zostały pokrótce przedstawione parametry wykorzystywane w procesie rozpoznawania gatunków w kontekście liczby pasm częstotliwościowych użytych w korekcji dźwiękowej. Ponadto pokrótce omówiono środowisko Faust, w którym zaprojektowano korektor graficzny.

Słowa kluczowe korektor graficzny, akustyka pomieszczeń, LUFS (Loudness Unit, referenced to Full Scale), gatunek muzyczny.

Projekt badawczy DS

Pozycja nr 143

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Dorochowicz, A. Majdańczuk, P. Hoffmann

Tytuł angielski Comparison of classification of musical genre results obtained by subjective tests and decision algorithms.

Tytuł polski Porównanie wyników klasyfikacji gatunków muzycznych uzyskanych za pomocą testów subiektywnych i algorytmów uczących się.

Konferencja XVI Międzynarodowego Sympozjum Nowości w Technice Audio i Wideo

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Rzeszów, Polska

Data konferencji 13.10.2016- 15.10.2016

Numer pozycji bibl. 24

Streszczenie Celem pracy jest przeprowadzenie testów subiektywnych rozróżniania gatunku muzycznego przez słuchaczy oraz dokonanie automatycznej klasyfikacji gatunków muzycznych przy pomocy wybranych algorytmów uczących się. W pierwszej kolejności przywołano genezę podziału na gatunki muzyczne. W ramach pracy zrealizowana została ankieta internetowa w celu umożliwienia odsłuchu i przypisania próbek dźwiękowych do wybranych gatunków muzycznych za pomocą odpowiednio przygotowanego interfejsu. Dodatkowo, dokonano parametryzacji wybranych utworów muzycznych oraz zbadano skuteczność automatycznej klasyfikacji gatunków muzycznych. W końcowej części porównano wskazania słuchaczy i wyniki klasyfikacji uzyskane za pomocą algorytmów uczących się.

Słowa kluczowe Gatunki muzyczne, k-nn, testy subiektywne, akustyka

Projekt badawczy DS

Pozycja nr 144

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł polski Edytor czasopisma

Czasopismo J. Audio Eng. Soc.

Wolumin 64

Numer czasopisma 1-12

Strony

Rok 2016

Uwagi Edytor czasopisma

Projekt badawczy DS

Pozycja nr 145

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Kąkol, B. Kostek

Tytuł angielski A STUDY ON SIGNAL PROCESSING METHODS APPLIED TO HEARING AIDS

Tytuł polski PRZEGLĄD METOD PRZETWARZANIA DŹWIĘKU WYKORZYSTYWANYCH W APARATACH SŁUCHOWYCH

Czasopismo Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

Wolumin 51

Numer czasopisma

Strony 71 - 76

Rok 2016

Uwagi 2016

Streszczenie Niniejszy artykuł odnosi się do aktualnego stanu technologii wykorzystywanych w cyfrowych aparatach słuchowych, ze szczególnym uwzględnieniem technik cyfrowego przetwarzania sygnałów dźwiękowych. W artykule przedstawiono czynniki mające wpływ na efektywność aparatów słuchowych, a także zaprezentowano przykłady nowoczesnych metod cyfrowego przetwarzania sygnałów. Przedstawiono również przykłady ograniczeń współczesnych aparatów słuchowych oraz kierunki ich rozwoju. Przywołano również pojęcie analizy sceny dźwiękowej (CASA - Computational Auditory Scene Analysis) jako potencjalnej metody do polepszenia jakości odbioru mowy i muzyki w aparatach słuchowych.

Słowa kluczowe cyfrowe aparaty słuchowe; przetwarzanie sygnałów; przetwarzanie wielokanałowe; redukcja szumu i zakłóceń; kompensacja sprzężenia zwrotnego

Projekt badawczy DS

Pozycja nr 146

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Editor's note

Tytuł polski Artykuł wstępny

Czasopismo J. Audio Eng. Soc.

Wolumin 64

Numer czasopisma 12

Strony 960 - 961

Rok 2016

Streszczenie W artykule wstępnym zostały przedstawione aktualne osiągnięcia czasopisma, dotyczące m.in. wydania dwóch specjanych numerów JASEu poświęconych problemom ubytków słuchu związanych ze słuchaniem głośnej muzyki (ang. music-induced hearing disorders) oraz zagadnieniom automatycznego przetwarzania muzyki (ang. intelligent audio processing, semantics, and interaction).

Słowa kluczowe problemy uszkodzenia słuchu wywołane słuchniem głośnej muzyki,automatyczne przetwarzanie muzyki

Projekt badawczy DS

Pozycja nr 147

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski 3D Acoustic Field Intensity Probe Design and Measurements

Czasopismo Archives of Acoustics

Wolumin 41

Numer czasopisma 4

Strony 701 - 711

Rok 2016

Uwagi DOI: 10.1515/aoa-2016-0067

Abstract The aim of this paper is two-fold. First, some basic notions on acoustic field intensity and its measurement are shortly recalled. Then, the equipment and the measurement procedure used in the sound intensity in the performed research study are described. The second goal is to present details of the design of the engineered 3D intensity probe, as well as the algorithms developed and applied for that purpose. Results of the intensity probe measurements along with the calibration procedure are then contained and discussed. Comparison between the engineered and the reference commercial probe confirms that the designed construction is applicable to the sound field intensity measurements with a sufficient effectiveness.

Słowa kluczowe SOUND INTENSITY;SOUND INTENSITY MEASUREMENTS;SOUND INTENSITY PROBE

Projekt badawczy NCN_POM

Pozycja nr 148

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Odya, P. Suchomski

Tytuł angielski Loudness Scaling Tests In Hearing Problems Detection

Tytuł polski Skalowanie głośności oparte na percepcji kategorii głośności

Czasopismo Archives of Acoustics

Wolumin 41

Numer czasopisma 4

Strony 637 - 648

Rok 2016

Uwagi DOI 10.1515/aoa-2016-0061

Abstract The main goal of this research study is focused on creating a method for loudness scaling based on categorical perception. Its main features, such as: way of testing, calibration procedure for securing reliable results, employing natural test stimuli, etc., are described in the paper and assessed against a procedure that uses 1/2-octave bands of noise (LGOB) for the loudness growth estimation. The Mann-Whitney U-test is employed to check whether the proposed method is statistically equivalent to LGOB. It is shown that loudness functions obtained in both methods are similar in the statistical context. Moreover, the band-filtered musical instrument signals are experienced as more pleasant than the narrow-band noise stimuli and the proposed test is performed in a shorter time. The method proposed may be incorporated into fitting hearing strategies or used for checking individual loudness growth functions and adapting them to the comfort level settings while listening to music.

Streszczenie Głównym celem niniejszej pracy badawczej było stworzenie metody skalowania głośności opartej na percepcji kategorii głośności. W artykule opisane główne cechy metody, takie jak: sposób badania, procedura kalibracji, bodźce testowe. Dokonano także porównania z klasyczną metodą LGOB. Użytu w tym celu testu Manna-Whitneya. Wykazano, że funkcje skalowania głośności uzyskane dla obu metod są zbliżone statystycznie. Ponadto filtrowane sygnały instrumentów muzycznych są wskazywane jako przyjemniejsze niż próbki szumu wąskopasmowego.

Słowa kluczowe skalowanie głośności, diagnostyka słuchu, audiologia

Projekt badawczy MODALITY

Pozycja nr 149

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, A. Kurowski, B. Kostek

Tytuł angielski Analysis of soundscape recordings in close proximity to the road in changeable wather conditions

Tytuł polski ANALIZA SYGNAŁÓW FONICZNYCH W NAGRANIACH POJAZDÓW W ZMIENNYCH WARUNKACH POGODOWYCH

Konferencja 16th International Symposium on New Trends in Audio and Video

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Rzeszów, Polska

Data konferencji 13.10.2016- 15.10.2016

Abstract The acoustic vehicle sensing is the least invasive type of traffic detection. Also, acoustic-based vehicle detection technology is insensitive to precipitation and can operate in low light level. Therefore, this kind of method may be used for automatic detection of the vehicle passage events. It can also be employed for measurements of a vehicle speed and the vehicle assignment to the particular category. In this paper the results of the experiment that evaluate the impact of the wet pavement on the noise pattern analyzed in frequency domain are presented. The observations take place in a few locations in different weather conditions. Video recordings were also made for a better speed determination.

Streszczenie Akustyczna detekcja pojazdów jest najmniej inwazyjnym sposobem kontroli natężenia ruchu pojazdów w miastach. Charakteryzuje się również odpornością na warunki oświetleniowe i pogodowe. W niniejszym referacie przedstawiono wyniki parametryzacji sygnałów fonicznych dla dźwięków przejazdów pojazdów w kontekście zmian warunków atmosferycznych. W ramach badań przeprowadzono rejestrację wideofoniczną pojazdów w kilku wybranych lokalizacjach, między innymi dla drogi ekspresowej oraz dróg o niższym natężeniu pojazdów. Sesje nagraniowe prowadzone były przy różnych warunkach atmosferycznych, z uwzględnieniem różnic w widmie sygnału fonicznego dla jezdni mokrej i suchej.

Słowa kluczowe BRON-KERBOSCH ALGORITHM, FIELD RECORDINGS, LOW-LEVEL FEATURES, MIR-TOOLBOX, VEHICLE-ASSOCIATED NOISE

Projekt badawczy INPREDO

Pozycja nr 150

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski , K. Marciniuk, B. Kostek

Tytuł angielski Dynamic Road Traffic Density Estimation Employing Noise Mapping with the Use of Grid Supercomputing

Tytuł polski Szacowanie natężenia ruchu drogowego z zastosowaniem tworzenia map hałasu przy zastosowaniu gridu superkomputerowego

Czasopismo J. Acoust. Soc. Amer.

Wolumin 139

Numer czasopisma 4

Strony 2006 - 2006

Rok 2016

Identyfikator DOI 10.1121/1.4949894

Uwagi http://dx.doi.org/10.1121/1.4949894

Abstract A noise prediction model of a large city agglomeration was elaborated in order to allow for a dynamic road traffic density estimation in vehicular networks. The implemented application adopts the model fed with traffic noise data based on frequently refreshed LDEN levels. Calculations were made with the use of the numerical model developed for his purpose and then implemented on the PL-Grid supercomputing infrastructure. Data obtained through supercomputing and through the use of a standard noise map computing software were collated with measured levels acquired from the acoustic city monitoring system and then analyzed. The comparison performed afterwards shows a relatively good accuracy of the developed model. The numerical model of traffic noise and its main sources are briefly characterized. A full day dynamic noise map can be browsed as a set of 24 noise maps, one for each hour of the day which in turn allows for vehicular traffic density estimation based exclusively on acoustical data.

Słowa kluczowe Ruch drogowy; hałas

Projekt badawczy INPREDO

Pozycja nr 151

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek, A. Górski

Tytuł angielski Method and Application of Auditory-Visual Attention Training

Tytuł polski Metoda audiowizualnego treningu uwagi i jej zastosowanie

Czasopismo J. Acoust. Soc. Amer.

Wolumin 139

Numer czasopisma 4

Strony 1993 - 1993

Rok 2016

Uwagi http://dx.doi.org/10.1121/1.4949836

Abstract The main idea underlying the proposed attention training is to perform stimulation of the hearing and sight senses employing digital signal processing algorithms controlled by electroencephalography signals. The auditory and visual stimuli are designated to force the perception through hearing and sight senses by the appropriate hemisphere. The applied speech modification uses a non-uniform real-time speech stretching algorithm. The video content retrieval showing the speaker's face is slowed down, accordingly. Research experiments employed subjects with central auditory and visual processing disorders revealing severe communication difficulties. The effectiveness of the proposed method has been shown using formal attention focus tests. It was demonstrated that the proposed method of attention training helps improve speech understanding and reading skills in examined subjects. [Research sponsored by the Polish National Science Centre, Dec. No. DEC-2014/15/B/ST7/04724.]

Słowa kluczowe Attention training; Audio; Video

Projekt badawczy HCIBRAIN

Pozycja nr 152

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, M. Szykulski, T.E Ciszewski

Tytuł angielski Building Knowledge for the Purpose of Lip Speech Identification

Tytuł polski Przygotowanie bazy w celu indentyfikacji wizemów

Konferencja MISSI 2016, 10th International Conference on Multimedia & Network Information Systems

Numer preprintu

Numer 10

Wolumin 506

Strony 3 - 14

Miejsce konferencji Wrocław, Polska

Data konferencji 14.9.2016- 16.9.2016

Uwagi link: http://link.springer.com/chapter/10.1007/978-3-319-43982-2_1 Advances in Intelligent Systems and Computing, Springer Verlag,

Abstract Consecutive stages of building knowledge for automatic lip speech identification are shown in this study. The main objective is to prepare audio-visual material for phonetic analysis and transcription. First, approximately 260 sentences of natural English were prepared taking into account the frequencies of occurrence of all English phonemes. Five native speakers from different countries read the selected sentences in front of three cameras. Video signals, synchronized with audio, were registered and then analyzed. Encountered problems related to video registration and results achieved are discussed. Słowa kluczowe: audio-visual speech recognition · AVSR · thermovision · stereovision · Time-of-Flight · phonetic transcription

Streszczenie W publikacji przedstawiono kolejne kroki związane z przygotowaniem bazy wideo-fonicznych nagrań mowy. W pierwszej kolejności zaproponowano materiał językowy do nagrań w kontekście analizy leksykalnej występowania fonemów w j. angielskim. Nagrano pięć osób z wykorzystaniem trzech kamer i jednoczesną rejestracją dźwięku. Przedstawiono i przedyskutowano przykłady analiz nagranego materiału wideo-fonicznego. indeksowanie: Web of Science, IEEE Xplore, Google Scholar, Springerlink, ISI Proceedings, SCOPUS

Słowa kluczowe foniczno-wizyjne rozpoznawanie mowy (ang. audio-visual speech recognition - AVSR, transkrypcja fonetyczna, baza nagrań AVSR

Projekt badawczy ALOFON

Pozycja nr 153

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski , B. Kostek

Tytuł angielski A Study in Experimental Methods of Human-Computer Communication for Patients After Severe Brain Injuries

Tytuł polski Studium metod komunikacji człowiek-komputer dla pacjentów po ciężkich urazach mózgu

Konferencja 4th International Work-Conference on Bioinformatics and Biomedical Engineering (IWBBIO) 2016

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Granada, Spain

Data konferencji 20.4.2016- 22.4.2016

Uwagi Rozdział w książce Bioinformatics and Biomedical Engineering Volume 9656 of the series Lecture Notes in Computer Science pp. 689-703

Abstract Experimental research in the domain of multimedia technology applied to medical practice is discussed, employing a prototype of integrated multimodal system to assist diagnosis and polysensory stimulation of patients after severe brain injury. The system being developed includes among others: eye gaze tracker, and EEG monitoring of non-communicating patients after severe brain injuries. The proposed solutions are used for collecting and analyzing patients’ responses and interactions induced by the multimodal stimulation, resulting in assessing the influence of stimuli on increase of patient’s cognitive and communicative functions with the use of intelligent data analysis methods.

Słowa kluczowe Human Computer Interface; Coma; Brain Injuries

Projekt badawczy HCIBRAIN

Pozycja nr 154

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, S. Laskowski, K. Mizgier

Tytuł angielski Modeling and Designing Acoustical Conditions of the Interior – Case Study

Tytuł polski Model i symulacja warunków akustyki wnętrza - przykład

Czasopismo Archives of Acoustics

Wolumin 41

Numer czasopisma 3

Strony 473 - 484

Rok 2016

Uwagi doi:10.1515/aoa-2016-0044

Abstract The primary aim of this research study was to model acoustic conditions of the Courtyard of the Gdańsk University of Technology Main Building, and then to design a sound reinforcement system for this interior. First, results of measurements of the parameters of the acoustic field are presented. Then, the comparison between measured and predicted values using the ODEON program is shown. Collected data indicate a long reverberation time which results in poor speech intelligibility. Then, a thorough analysis is perform to improve the acoustic properties of the model of the interior investigated. On the basis of the improved acoustic model two options of a sound reinforcement system for this interior are proposed, and then analyzed. After applying sound absorbing material it was noted that the predicted speech intelligibility increased from bad/poor rating to good category. słowa kluczowe: acoustic field analysis and modeling; acoustic conditions measurements and analysis; sound reinforcement system design

Streszczenie Celem artykułu było przygotowanie modelu akustyki wnętrza Dziedzińca Politechniki Gdańskiej, a następnie zaprojektowanie systemu nagłośnieniowego przeznaczonego dla tego wnętrza. W artykule przedstawiono wyniki pomiarów i porównano je z wynikami symulacji przeprowadzonej w środowisku Odeon. W dalszej kolejności zaproponowano warianty adaptacji akustycznej oraz przedstawiono projekt systemu nagłośnieniowego.

Słowa kluczowe analiza akustyki wnętrza, pomiary akustyczne, analiza warunków akustyki wnętrz, system nagłośnienia

Projekt badawczy NCN_POM

Pozycja nr 155

Typ pozycji: patent

Autorzy A. Czyżewski, B. Kostek, G. Bogdanis, W. Sudomir

Tytuł polski Sposób i układ do weryfikacji tożsamości użytkownika w systemach informatycznych, zwłaszcza w systemach bankowych

Numer patentu P.416349

Data zgłoszenia 1.3.2016

Słowa kluczowe BIOMETRICS, DYNAMIC SIGNATURE, FINGER / HAND VEIN, MULTIMODAL IDENTIFICATION, VERIFICATION

Projekt badawczy IDENT

Pozycja nr 156

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szykulski, P. Bratoszewski, J. Kotus, A. Czyżewski, B. Kostek

Tytuł polski KORPUS MOWY ANGIELSKIEJ DO CELÓW MULTIMODALNEGO AUTOMATYCZNEGO ROZPOZNAWANIA MOWY

Czasopismo Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Wolumin

Numer czasopisma 8-9

Strony

Rok 2016

Uwagi doi:10.15199/59.2016.8-9.74

Abstract An audiovisual corpus containing 31 hours of English speech recordings is presented. The new corpus was created in order to assist the development of audiovisual speech recognition systems (AVSR). The corpus includes high-framerate stereoscopic video streams and audio recorded by both microphone array and a microphone built in a mobile computer. Owing to the inclusion of recordings made in noisy conditions, the corpus can be used to assess the robustness of speech recognition systems in the presence of acoustic noise.

Streszczenie W referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus może być wykorzystany do badania wpływu zakłóceń na skuteczność rozpoznawania mowy.

Słowa kluczowe ROZPOZNAWANIE MOWY, KORPUS MODALITY, AVSR

Projekt badawczy ALOFON

Pozycja nr 157

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, G. Bogdanis, B. Kostek, M. Lech, P. Bratoszewski, P. Hoffmann

Tytuł angielski Automatic verification of banking clients based on multimodal biometrics

Konferencja Biometrics 2016

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Londyn , Wielka Brytania

Data konferencji 18.10.2016- 20.10.2016

Abstract Within the scope of the IDENT project – a Multimodal biometric system for bank client identity verification developed within the NCBiR Applied Research Program, a multimodal technology is currently in development, improving biometric systems used to date through integration and intelligent application of innovative – new and already known biometric methods in form of an intelligent, multimodal bank stand. In the multimodal stand, the authors decided to use the following modalities: - dynamic signature based on multidimensional analysis, applied with a wireless pen with sensors, developed and built in the Department of Multimedia Systems - face contour registered with the use of laser photogrammetry - audio verification of identity with the use of free speech - video verification of identity - verification with the use of blood vessel distribution, based on hand analysis in infrared light A central element of the stand is a Biometric Hub, which functions as a modality integrator. Signals registered with the use of biometric sensors are parameterized by the Biometric Hub and then transferred to a Biometric Server, where the assessment and comparison of samples are performed. Control of the stand takes place via the Biometric Server, which supervises the process of biometric sampling. All activities performed in the stand are simultaneously performed on the Biometric Hub and on the consultant’s computer, and the results of operation of the stand are visible on the screens of the consultant and of the customer. Activities performed in the stand are registered in a biometric database. The basic functionality consists of enabling the collection of biometric samples, which in the next step serve for identity verification. Biometric data collected while the stand is operating are saved on a Biometric Server. Through global storage of biometric patterns, it is possible to confirm the identity of a customer in any bank unit taking part in the development of an Experimental, Distributed Biometric Lab. After the process of collecting biometric patterns is completed, the customer and the consultant are asked to share their opinions in a survey integrated with the software of the stand. According to the project execution plan, it is planned to build and launch 100 stands described above in 60 units of the PKO BP Bank. As all those stands are going to communicate with a central server, this will lead to the creation of a certain Distributed Bank Biometrics Laboratory.

Słowa kluczowe BIOMETRICS, DYNAMIC SIGNATURE, FINGER / HAND VEIN, MULTIMODAL IDENTIFICATION, VERIFICATION

Projekt badawczy IDENT

Pozycja nr 158

Typ pozycji: referat konferencyjny

Autorzy A. Kurowski, J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski Numerical modeling of sound intensity distributions around acoustic transducer

Konferencja 140th Audio Eng. Society Convention

Numer preprintu 9525

Numer

Wolumin

Strony 1 - 10

Miejsce konferencji Paryż, Francja

Data konferencji 4.6.2016- 7.6.2016

Abstract The aim of this research study is to measure, simulate and compare sound intensity distribution generated by the acoustic transducers of the loudspeaker. The comparison of the gathered data allows for validating the numerical model of the acoustic radiation. An accurate model of a sound source is necessary in mathematical modeling of the sound field distribution near the scattering obstacles. An example of such obstacle is a human head. Preparation of a robust mathematical model of the sound field generated by a loudspeaker is one of the important factors in simulation of sound waves scattering by the human head. The numerical model is developed for the purpose of this kind of research.

Słowa kluczowe anechoic chamber, boundary element method, sound intensity, electroacoustic transducers, computer simulation

Projekt badawczy NCN_POM

Pozycja nr 159

Typ pozycji: referat konferencyjny

Autorzy K. Kąkol, B. Kostek

Tytuł angielski A study on signal processing methods applied to hearing aids

Tytuł polski Przegląd algorytmów przetwarzania sygnałów w protezach słuchowych

Konferencja SIGNaL PROCESSING algorithms, architectures, arrangements, and applications SPA 2016

Numer preprintu

Numer

Wolumin

Strony 219 - 224

Miejsce konferencji Poznan, Poland

Data konferencji 21.9.2016- 23.9.2016

Uwagi Proc. w WoS, www.spaconference.org.pl

Abstract This paper presents a short survey on current technology available in hearing aids with a focus on digital signal processing techniques used. First, factors influencing the hearing aid effectiveness are introduced. Then, examples of the present DSP methods and strategies are provided. Also, a description of current limitations of hearing aids and future trends of development are shown. Finally, the notion of computational auditory scene analysis is presented as a possible solution for improving quality of speech and music perception while using a hearing prosthesis.

Streszczenie Referat przedstawia aktualne trendy technologiczne stosowane w protezach słuchowych oraz algorytmy przetwarzania sygnałów w protezach słuchowych. Pokazano ównież kierunki rozwoju algorytmów stosowanych w protezach słuchowych w kontekście poprawy jakości percpecji sygnałów mowy i muzycznych.

Słowa kluczowe technologia protez słuchowych, algorytmy przetwarzania sygnałów w protezach słuchowych, ang. hearing aid technology, signal processing technology in hearing aids

Projekt badawczy DS

Pozycja nr 160

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Odya, P. Suchomski

Tytuł angielski Loudness Scaling Test Based On Categorical Perception

Tytuł polski Skalowanie głośności oparte na percepcji kategorii głośności

Konferencja 17th International Conference Noise Control 2016

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gniew, Polska

Data konferencji 22.5.2016- 25.5.2016

Uwagi prezentacja na konferencji, abstarct w materiałach konferencyjnych

Abstract The main goal of this research study is focused on creating a method for loudness scaling based on categorical perception. Its main features, such as: way of testing, calibration procedure for securing reliable results, employing natural test stimuli, etc., are described in the paper and assessed against a procedure that uses 1/2-octave bands of noise (LGOB) for the loudness growth estimation. The Mann-Whitney U-test is employed to check whether the proposed method is statistically equivalent to LGOB. It is shown that loudness functions obtained in both methods are similar in the statistical context. Moreover, the band-filtered musical instrument signals are experienced as more pleasant than the narrow-band noise stimuli and the proposed test is performed in a shorter time. The method proposed may be incorporated into fitting hearing strategies or used for checking individual loudness growth functions and adapting them to the comfort level settings while listening to music.

Słowa kluczowe skalowanie głośności, diagnostyka słuchu, audiologia

Projekt badawczy MODALITY

Pozycja nr 161

Typ pozycji: referat konferencyjny

Autorzy P. Odya, B. Kostek, J. Kotus, M. Szczodrak, A. Czyżewski

Tytuł angielski Sound Field Analysis Around An Organ Pipe

Konferencja DAGA 2016

Numer preprintu

Numer

Wolumin

Strony 275 - 278

Miejsce konferencji Aachen, Niemcy

Data konferencji 14.3.2016- 17.3.2016

Uwagi poster

Abstract The aim of this paper is to examine sound field around an organ pipe measured under free-field conditions. Measurement methodology along with the equipment employed in this research study are described. Sound intensity is determined by utilizing an acoustic vector sensor. Issues related to the organ pipe activation providing constant air flow to secure long-term steady state responses of generated acoustic signals are presented. For this purpose an external compressor is applied. Sound energy flow is measured in a defined grid of points. The Cartesian robot is used for a precise positioning of the acoustic probe. Results of measurements of acoustic energy flow in an anechoic chamber are shown along with the analysis and visualization sound intensity distribution of radiated acoustic energy around the organ pipe.

Słowa kluczowe organ pipe, sound field, organy, piszczałka

Projekt badawczy NCN_POM

Pozycja nr 162

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski 3D acoustic field intensity probe design and measurements

Konferencja XVII International Conference Noise Control 2016

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gniew, Polska

Data konferencji 22.5.2016- 25.5.2016

Abstract The aim of this paper is two-fold. First of all, some basic notions on acoustic field intensity and its measurement are shortly recalled. Then, the equipment and the measurement procedure used in the sound intensity in the performed research study are described. The second goal is to present details of the design of the engineered 3D intensity probe, as well as algorithms developed and applied. Results of the intensity probe measurements along with the calibration procedure are then contained and discussed. Comparison between the engineered and the reference commercial probe confirm that the designed construction is applicable to sound field intensity measurements with a sufficient effectiveness.

Słowa kluczowe SOUND INTENSITY, SOUND INTENSITY MEASUREMENTS, SOUND INTENSITY PROBE

Projekt badawczy NCN_POM

Pozycja nr 163

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Łopatka, A. Czyżewski, B. Kostek

Tytuł angielski Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks

Tytuł polski Poprawa jakości odbioru multimediów poprzez zwiększenie wyrazistości dialogów w ścieżce dźwiękowej

Czasopismo Digital Signal Processing

Wolumin 48

Numer czasopisma

Strony 40 - 49

Rok 2016

Uwagi doi:10.1016/j.dsp.2015.08.015, opublikowano online 8.09.2015 http://www.sciencedirect.com/science/article/pii/S105120041500264X

Abstract his paper presents a method for improving users' quality of experience through processing of movie soundtracks. The dialogue clarity enhancement algorithms were introduced for detecting dialogue in movie soundtrack mixes and then for amplifying the dialogue components. The front channel signals (left, right, center) are analyzed in the frequency domain. The selected partials in the center channel signal, which yield high disparity between left and right channels, are detected as dialogue. Subsequently, the dialogue frequency components are boosted to achieve an increased dialogue intelligibility. Techniques for reduction of artifacts in the processed signal are also introduced. It is done through smoothing in the time domain and in the frequency domain, applied to reduce unpleasant artifacts. The results of objective and subjective tests are provided, which prove that an increased dialogue intelligibility is achieved with the aid of the proposed algorithm. The algorithm is particularly applicable in mobile devices while listening in changing conditions and in the presence of noise.

Streszczenie W artykule przedstawiono sposób poprawy percypowanej jakości multimediów (Quality of Experience) poprzez przetwarzanie ścieżek dźwiękowych filmów. Wprowadzono algorytm poprawy wyrazistości dialogów filmowych. Sygnały z kanałów przednich (lewy, prawy, środkowy) są analizowane w dziedzinie częstotliwości. Wybrane składowe częstotliwościowe, które wykazują dużą dysparycję pomiędzy kanałem środkowym a kanałami bocznymi, są zidentyfikowane jako związane z dialogiem i wzmocnione w celu zwiększenia wyrazistości mowy. Opisano techniki redukcji artefaktów w przetworzonym sygnale. Polegają one na wygładzaniu w dziedzinie czasu i częstotliwości. Przedstawiono wyniki testów obiektywnych oraz subiektywnych. które potwierdzają, że dzięki zastosowaniu zaproponowanego algorytmu osiąga się zwiększoną wyrazistość mowy. Algorytm znajduje zastosowanie zwłaszcza przy odsłuchu w zmiennych warunkach w obecności zakłóceń zewnętrznych.

Słowa kluczowe Dialogue clarity; Center channel extraction; Speech processing; 5.1 downmix; Quality of experience

Projekt badawczy MODALITY

Pozycja nr 164

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Szczuko, J. Kotus, M. Szczodrak, A. Czyżewski

Tytuł angielski Guitar String Sound Retrieved from Moving Pixels

Konferencja Spring (171st) 2016 Meeting of the Acoustical Society of America

Numer preprintu

Numer

Wolumin

Strony 1 - 8

Miejsce konferencji Salt Lake City, USA

Data konferencji 23.5.2016- 27.3.2016

Abstract The aim of this study was to develop a method of visual recording and analyzing the vibrations of guitar strings using high-speed cameras and dedicated video processing algorithms. The recording of a plucked string reveals the way in which the deformations propagate, composing the standing and travelling wave. The paper compares the results for a few selected models of classical and acoustic guitars, and it involves processing the vibration image into to the sound recording. The sound reconstructed in this way is compared with the sound recorded synchronously with the reference measurement microphone.

Słowa kluczowe ACOUSTIC GUITAR, FAST CAMERAS, VIBRATION ANALYSIS

Projekt badawczy NCN_POM

Pozycja nr 165

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, T. Poremski

Tytuł angielski Designing a computer-based application for subjective tinnitus evaluation

Tytuł polski Aplikacja wspomagająca pomiar parametrów psychoakustycznych szumów usznych

Konferencja MCSB 2015, Cybernetic Modelling of Biological Systems

Numer preprintu

Numer

Wolumin

Strony 38 - 38

Miejsce konferencji Kraków, 2015

Data konferencji 14.5.2015- 15.5.2015

Abstract Measuring tinnitus is an important part of the process of helping patients. A standard procedure employs an audiometer to determine both Tinnitus pitch and its severity. However, patients are rarely able to identify these two factors correctly, thus the process is not accurate. Thus, the objective of this paper is to present a computer-based application for diagnosing subjective Tinnitus in patients and check whether this tool enables to shorten this process and makes it more reliable. A touch-screen graphical interface is proposed which patients use while measuring their own Tinnitus. The measurement method is based on sound synthesis and it is then compared to the standard method which employs an audiometer. For the purpose of this study a group of patients is examined employing the designed application against audiometric-based Tinnitus measurements. Wilcoxon test is then utilized to check whether there are statistically important differences between these two methods. Resulted from this study is that patients while using the synthesizer are able to estimate their tinnitus twice as fast as when they do that on the basis of the audiometer. Also, evaluation of the Tinnitus is more accurate. Wilcoxon-based analysis proves that the results obtained with the use of the application designed and an audiometer are statistically different. The authors demonstrate that when patients measure their own Tinnitus, they make it in a shorter time in comparison to the standard approach. Furthermore, they evaluate this process more friendly, and the results are better correlated to their own Tinnitus. Overall, they have a greater profit using the designed touch-screen application.

Streszczenie W referacie przedstawiono wykorzystanie opracowanej metody pomiaru parametrów psychoakustycznych szumów usznych wykorzystującego syntezę dźwięku. W badaniach uczestniczyły osoby cierpiące na szumy uszne. Uzyskane wyniki poddano analizie statystycznej (test Wilcoxona). Z przeprowadzonych badań wynika, że zastosowanie metody syntezy dźwięku skraca czas przeprowadzenia badania w stosunku do badania standardowego. Uzyskane w ten sposób wzorce szumu usznego są oceniane przez pacjentów jako bardziej podobne do odczuwanych szumów usznych.

Słowa kluczowe audiologia, szumy uszne, pomiar parametrów psychoakustycznych

Projekt badawczy DS

Pozycja nr 166

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, M. Szczodrak, B. Kostek

Tytuł angielski Analysis of noise assessment of selected areas in Gdańsk

Czasopismo Archives of Acoustics

Wolumin 40

Numer czasopisma 4

Strony 621 - 625

Rok 2015

Identyfikator DOI 10.1515/aoa-2015-0062

Uwagi http://acoustics.ippt.pan.pl/index.php/aa/article/view/1655/pdf_135

Abstract The subject of this study focuses on the noise condition analysis of selected areas in the city of Gdańsk with the use of a numerical model implemented on the supercomputer infrastructure. The numerical model of traffic noise and its main sources are briefly characterized. Then the correctness of the model based on the acoustical conditions of the chosen areas obtained by the system of sensors located in the city of Gdańsk is analytically verified.

Pozycja nr 167

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, B. Kostek

Tytuł angielski Measurements and Visualization of Sound Intensity Around the Human Head in Free Field Using Acoustic Vector Sensor

Czasopismo J. Audio Eng. Soc.

Wolumin 63

Numer czasopisma 1/2

Strony 99 - 109

Rok 2015

Uwagi DOI: 10.17743/jaes.2015.0009

Abstract This paper presents measurements and visualization of sound intensity around the human head simulator in a free field. A Cartesian robot, applied for precise positioning of the acoustic vector sensor, was used to measure sound intensity. Measurements were performed in a free field using a head and torso simulator and the setup consisting of four different loudspeaker configurations. The acoustic vector sensor was positioned around the head with a 5-cm step. Sound intensity was measured in 277 points. For every step, three orthogonal sound intensity components were calculated. Pure tones of frequencies: 250, 1000, and 4000 Hz were applied to analyze the acoustic field. Obtained results were used to provide visualizations of sound intensity distribution around the human head. The tool developed for this purpose utilized three-dimensional sound intensity measurements and visualization techniques.

Słowa kluczowe CARTESIAN ROBOT, HUMAN HEAD, SOUND INTENSITY MEASUREMENTS

Projekt badawczy NCN_POM

Pozycja nr 168

Typ pozycji: referat konferencyjny

Autorzy K. Milarska, A. Zakrzewski, B. Kostek

Tytuł angielski Measuring and Analyzing Audio Levels in Film, Commercials, and Movie Trailers Using Leq(A) Values and the LUFS Loudness Model

Tytuł polski Analiza pomiarów dźwięku w filmie oraz w reklamach filmowych z wykorzystaniem modelu głośności

Konferencja 138 Audio Engineering Society Convention

Numer preprintu 9336

Numer

Wolumin

Strony 1 - 10

Miejsce konferencji Warsaw, Poland

Data konferencji 7.5.2015- 10.5.2015

Uwagi Streszczenie w czasopiśmie: J. Audio Eng. Society, vol. 63, no. 7/8, p. 630, 2015.

Abstract The purpose of this paper is to describe the measurement of loudness levels in movies, movie trailers, and commercials displayed before feature films at movie theaters. In the initial section, the paper discusses the issues related to measurement of loudness levels, provides recommendations regarding permissible loudness levels during movie screenings, and mentions the applied units of measurement. The following section of the paper describes the actual measurements, measuring equipment, as well as analysis of the results of the measurements. The summary provides conclusions about the measured loudness levels at movie theaters, for DVD and Blu ray discs, and for YouTube videos.

Streszczenie Celem referatu było przedstawienie wyników pomiarów poziomu głośności ścieżki dźwiękowej oraz ich analiza. Pomiary dotyczyły ścieżki dźwiękowej odtwarzanej w kinach, na nośniku DVD i Blu-ray oraz w serwisie YouTube.

Słowa kluczowe Poziom głośności, pomiary poziomu głośności ścieżki dźwiękowej, poziom równoważny

Projekt badawczy DS

Pozycja nr 169

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, W. Moskwa, A. Czyżewski, B. Kostek

Tytuł angielski Development of the Sound Field 3D Intensity Probe Based on Miniature Microphones

Tytuł polski Projekt sondy mikrofonowej do pomiarów zjawisk falowych w rzeczywistym polu akustycznym

Konferencja 139 Audio Eng. Soc. Convention

Numer preprintu 221

Numer

Wolumin

Strony 1 - 4

Miejsce konferencji New York, USA

Data konferencji 29.10.2015- 1.11.2015

Uwagi projekt NCN_P

Abstract The engineered measuring probe uses three pairs of miniature microphones coupled. The signals from the microphones after an initial amplification are fed to differential circuits. Due to the required symmetry of the circuit it was necessary to select electronic components very carefully. Moreover, additional digital signal processing techniques were applied to avoid amplitude and phase mismatch. The view of the engineered probe is presented in photographs. Characteristics of the probe measured in an anechoic chamber are attached followed by a discussion of achieved results. The obtained results were compared with the reference USP probe, produced by the Microflown company.

Streszczenie W referacie opisano projekt i przygotowanie sondy pomiarowej do pomiaru natężenia w polu akustycznym. Przygotowana sonda składa się z trzech par mikrofonów. Sonda mikrofonowa przed zastosowaniem jej do pomiarów pola akustycznego wymaga przeprowadzenia kalibracji jej czujników. Metoda kalibracji polega na porównaniu charakterystyki odbiorczej sondy z mikrofonem wzorcowym, a następnie wprowadzeniu korekt w charakterystykach amplitudowych i fazowych czujników. Pomiary wykonane zostały w komorze bezechowej.

Słowa kluczowe sonda pomiarowa, pomiary w polu akustycznym, natężenie pola akustycznego, komora bezechowa

Projekt badawczy NCN_POM

Pozycja nr 170

Typ pozycji: referat konferencyjny

Autorzy K. Marciuniuk, B. Kostek

Tytuł angielski NOISE MODELING, ROAD NOISE, NOISE MAPS, DYNAMIC NOISE MAPS

Konferencja LXII Otwarte Seminarium Akustyki

Numer preprintu

Numer

Wolumin

Strony 347 - 358

Miejsce konferencji Świerardów-Zdrój, Polska

Data konferencji 7.9.2015- 11.9.2015

Abstract The subject of this research study is to analyze noise conditions of the selected area in the city of Gdańsk using data related to traffic volume changes during a day. This is because daily distribution of noise levels is much more helpful for noise control and reduction than traditional maps with Lden levels indicated. Calculations are made with the use of a numerical model developed at the Gdansk Univ. of Technology and implemented on the supercomputer PL-Grid infrastructure and using Cad-naA. Obtained numbers are collated with measured ones via city monitoring system. The numerical model of traffic noise and its main sources are briefly characterized. Thanks to the established model of changes in noise level, a full day dynamic noise map are presented as a set of 24 noise maps, one for each hour of the day. Dynamic noise mapping of the main cities can help with faster noise pre-venting and help with traffic calming methods. These two facts are essential to making improvements in living conditions in cities.

Streszczenie Tematem pracy jest analiza poziomów hałasu wybranego obszaru Gdańska w kontekście zmian natę-żenia ruchu pojazdów w ciągu dnia. Dobowe analizy hałasu w krótkich interwałach czasowych takich jak jedna godzina są znacznie lepszym wyznacznikiem rozkładu klimatu akustycznego w mieście niż długo-okresowy wskaźnik LDEN. Obliczenia wykonane były za pośrednictwem modelu numerycznego opraco-wanego na Politechnice Gdańskiej i zaimplementowanego na infrastrukturze superkomputerów PL-Grid a także z wykorzystaniem oprogramowania CadnaA. Efektem opracowanego modelu hałasu była dyna-miczna mapa dla wybranego obszaru. Wykonano 24 mapy, każda na poszczególny ruch uśredniony dla okresu godziny. Regularny monitoring hałasu w miastach może przyśpieszyć poprawę jakości życia mieszkańców nie tylko w kontekście zmniejszenia hałasu, ale także w kontekście poprawy przepływności dróg. Uzyskane mapy mogą być łatwo rozpowszechnione przez Internet ze względu na niewielki rozmiar pliku rastrowego.

Słowa kluczowe NOISE MODELING, ROAD NOISE, NOISE MAPS, DYNAMIC NOISE MAPS

Pozycja nr 171

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Marciniuk, B. Kostek

Tytuł angielski Creating a numerical model of noise conditions based on the analysis of traffic volume changes in cities with low and medium structure

Czasopismo Archives of Acoustics

Wolumin 40

Numer czasopisma 3

Strony 438 - 439

Rok 2015

Abstract The subject of this research study is to analyze noise conditions of the selected area in the city of Gdańsk using data related to traffic volume changes during a day. This is because daily distribution of noise levels is much more helpful for noise control and reduction than traditional maps with Lden levels indicated. Calculations are made with the use of a numerical model developed at the Gdansk Univ. of Technology and implemented on the supercomputer PL-Grid infrastructure and using Cad-naA. Obtained numbers are collated with measured ones via city monitoring system. The numerical model of traffic noise and its main sources are briefly characterized. Thanks to the established model of changes in noise level, a full day dynamic noise map are presented as a set of 24 noise maps, one for each hour of the day. Dynamic noise mapping of the main cities can help with faster noise pre-venting and help with traffic calming methods. These two facts are essential to making improvements in living conditions in cities

Słowa kluczowe NOISE MODELING, ROAD NOISE, NOISE MAPS, DYNAMIC NOISE MAPS

Pozycja nr 172

Typ pozycji: patent

Autorzy A. Czyżewski, J. Kotus, B. Kostek

Tytuł polski Natężeniowe sondy mikrofonowe oparte na miniaturowych mikrofonach analogowych lub cyfrowych klasy MEMS

Numer patentu

Data zgłoszenia 30.11.2015

Uwagi Rozwiązanie zgłoszone wewnątrz PG, numer zgłoszenia 52/15, W.125097 zgłoszony do UP RP w dn. 05.05.2016r.

Streszczenie Przedmiotem zgłoszenia jest opracowanie sondy umożliwiającej wyznaczenie przestrzennego rozkładu natężenia dźwięku. Opracowana sonda do pomiaru natężenia dźwięku składa się z części akwizycji sygnałów akustycznych, obejmującej przestrzenny układ mikrofonów (analogowych lub cyfrowych) oraz układu realizującego funkcje korekcji sygnałów akustycznych i formowania sygnału wyjściowego. Ortogonalnie umieszczone trzy pary mikrofonów tworzą układy za pomocą których otrzymywane są sygnału prędkości akustycznej odpowiednio dla kierunków dla osi OX, OY i OZ. Mikrofon umieszczony centralnie dostarcza sygnał ciśnienia akustycznego.

Słowa kluczowe AKUSTYKA, NATĘŻENIE DŹWIĘKU, POMIARY

Projekt badawczy NCN_POM

Pozycja nr 173

Typ pozycji: patent

Autorzy B. Kostek, A. Czyżewski, P. Hoffmann

Tytuł polski Sposób modyfikacji częstotliwościowej sygnału dźwiękowego i układ do modyfikacji częstotliwościowej sygnału dźwiękowego

Numer patentu EP15460077

Data zgłoszenia 23.9.2015

Streszczenie Przedmiotem wynalazku jest sposób modyfikacji częstotliwościowej sygnału dźwiękowego i układ do modyfikacji częstotliwościowej sygnału dźwiękowego, przeznaczony zwłaszcza do wykorzystania w pokojach odsłuchowych oraz studiach nagraniowych.

Słowa kluczowe MUSIC GENRE RECOGNITION, SIGNAL MODIFICATION, SIGNAL PROCESSING, VBS

Projekt badawczy MODALITY

Pozycja nr 174

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Bass Enhancement Settings in Portable Devices Based on Music Genre Recognition

Czasopismo J. Audio Eng. Soc.

Wolumin 63

Numer czasopisma 12

Strony 980 - 989

Rok 2015

Numer pozycji bibl. 27

Uwagi DOI: http://dx.doi.org/10.17743/jaes.2015.0087

Abstract The paper presents a novel approach to the Virtual Bass Synthesis (VBS) applied to mobile devices, called Smart VBS (SVBS). The proposed algorithm uses an intelligent, rule-based setting of bass synthesis parameters adjusted to the particular music genre. Harmonic generation is based on a nonlinear device (NLD) method with the intelligent controlling system adapting to the recognized music genre. To automatically classify music genres, the k-Nearest Neighbor classifier combined with the Principal Component Analysis (PCA) method is employed. To fine tune the SVBS algorithm, the MUSHRA test is performed. Subjects are presented with music excerpts belonging to various genres, unprocessed and also processed by SVBS and a conventional bass boost algorithm. Listening tests show that subjects in most cases prefer the SVBS strategy developed by the authors in favor of both the conventional bass boost algorithm and the unprocessed audio file. Furthermore, the listeners indicated that perception of the SVBS-processed music excerpts is similar for several types of portable devices.

Słowa kluczowe AUTOMATIC MUSIC GENRE CLASSIFICATION, DIGITAL SIGNAL PROCESSING, K-NN, LOW FREQUENCY ENHANCEMENT, VIRTUAL BASS ALGORITHM

Projekt badawczy MODALITY

Pozycja nr 175

Typ pozycji: referat konferencyjny

Autorzy A. Walkowiak, A. Lorens, B. Kostek, H. Skarżyński

Tytuł angielski Simulation of cochlear implant patient’s hearing

Tytuł polski Symulacja słyszenia pacjenta z implantem ślimakowym

Konferencja MCSB 2015, Cybernetic Modelling of Biological Systems

Numer preprintu

Numer

Wolumin

Strony 24 - 24

Miejsce konferencji Kraków, Polska

Data konferencji 14.5.2015- 15.5.2015

Uwagi wydawca: de Gruyter, współautorstwo pracowników Instytutu Fizjologii i Patologii Słuchu w Kajetanach

Abstract The aim of the study was to develop and to validate computer simulation of cochlear implant patients’ hearing with spread of excitation as a parameter. Acoustic probes from the developed in IFPS simulation were presented in free field condition to 25 volunteers (13 female and 12 male, aged from 21 to 38 years) with normal hearing threshold. Discrimination score of the probes for three spread of excitation (SoE) width values was assessed. Despite of big variability of the results in each spread of excitation width group, ANOVA test results showed that correlation between simulated width of SoE and monosyllabic words discrimination scores was statistically significant (p < 0,001). Conclusions: Thanks to objective measurements of auditory pathway of implanted patients it is possible to develop simulation of “electric hearing”, which could explain differences between speech discrimination scores from patient to patient.

Streszczenie W pracy przedstawiono walidację systemu wspomagającego symulację słuchu elektrycznego pacjentów z implantem ślimakowym. W symulacji zastosowano metodę telemetrii odpowiedzi neuronalnej (SoE). Badania przeprowadzono w warunkach odsłuchu w polu swobodnym, wzięło w nich udział 25 pacjentów. Wyniki testów poddano analizie statystycznej ANOVA.

Słowa kluczowe audiologia, implant ślimakowy, metoda telemetrii odpowiedzi neuronalnej (SoE)

Projekt badawczy DS

Pozycja nr 176

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek, A. Czyżewski

Tytuł angielski Multimedia polysensory integration training system dedicated to children with educational difficulties

Tytuł polski doi:10.1007/s10844-015-0390-3

Czasopismo Journ. of Intelligent Information Systems

Wolumin

Numer czasopisma

Strony 1 - 22

Rok 2015

Uwagi Download Your e-Offprint (PDF file) Your 'Online First' electronic offprint is now available! Download your PDF file using the following link: http://www.springer.com/home?SGWID=0-0-1003-0-0&aqId=

Abstract This paper aims at presenting a multimedia system providing polysensory training for pupils with educational difficulties. The particularly interesting aspect of the system lies in the sonic interaction with image projection in which sounds generated lead to stimulation of a particular part of the human brain. The system architecture, video processing methods, therapeutic exercises and guidelines for children’s interaction with the system are presented. Results of pupils’ improvements after several weeks of exercising with the system are provided. The outcome of this study suggests that learning and developing through the interactive method helped to improve children’s spatial orientation skills.

Słowa kluczowe Polysensory integration training, Intelligent video processing, Image projection, Dyslexia therapy

Pozycja nr 177

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, M. Szczodrak, B. Kostek

Tytuł polski Wyznaczanie map hałasu z wykorzystaniem chmury obliczeniowej

Konferencja 16th International Symposium on Sound Engineering and Tonmeistering

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 8.10.2015- 10.10.2015

Streszczenie W referacie przedstawiono gridową usługę obliczeniową Mapy Hałasu. Algorytm predykcji hałasu i model źródła powstał w ramach badań Katedry Systemów Multimedialnych, Politechniki Gdańskiej. Aplikacja webowa umożliwia wykonanie map akustycznych, w szczególności hałasu drogowego bez użycia dodatkowego oprogramowania komercyjnego. W pracy przedstawiono zagadnienia z tematyki modelowania hałasu i propagacji dźwięku w przestrzeniach miejskich. Wyniki uzyskane za pomocą aplikacji zestawiono z wynikami otrzymanymi z wykorzystaniem oprogramowania komercyjnego dla dwóch modeli predykcji hałasu drogowego: zalecanego przez Unię Europejską NMPB-Routes-96 oraz międzynarodowego RLS-90. Opracowana aplikacja została przebadana pod kątem przejrzystości interfejsu, poprawności działania, jak i wydajności obliczeniowej. Zaprezentowano schemat działania ułatwiający korzystanie z aplikacji nawet dla osób z małym doświadczeniem w tematyce oraz obsłudze komputerów.

Słowa kluczowe mapy hałasu; grid superkomputerowy

Pozycja nr 178

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, P. Odya, M. Szczodrak, B. Kostek

Tytuł angielski 3D Sound Intensity Measurement Around Organ Pipes Using Acoustic Vector Sensors

Tytuł polski Pomiar natężenia dźwięku w otoczeniu piszczałek organowych z wykorzystaniem wektorowych czujników akustycznych

Konferencja LXII Otwarte Seminarium z Akustyki - OSA 2015

Numer preprintu

Numer

Wolumin

Strony 105 - 117

Miejsce konferencji Świeradów Zdrój, Polska

Data konferencji 7.9.2015- 11.9.2015

Uwagi Referat został opublikowany w książce "Postępu Akustyki" ("Progress of Acoustics") pod red. K.J. Opielińskiego, Wrocław 2015

Abstract The aim of the presented paper was to obtain and visualize sound intensity distribution of radiated acoustic energy around the organ pipes. The experimental setup consisted of the multichannel acoustic vector sensor and the specialized Cartesian robot. Measurements were performed in free field with spatial resolution of 0.1 [m]. Two organ pipes, i.e. wooden and metal were measured during the ex-periment. The organ pipes were activated using the air-compressor. Thus, it was possible to obtain a long-term steady state response. The multichannel sound card was used to record data from the acoustic vector sensor. The results were processed in order to visualize sound intensity distribution around each pipe. Results obtained for both organ pipes are compared and discussed in the paper.

Słowa kluczowe czujnik wektorowy, piszczałka

Projekt badawczy NCN_POM

Pozycja nr 179

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski IEEE/ACM Transactions on Audio, Speech, and Language Processing

Czasopismo IEEE/ACM Transactions on Audio, Speech, and Language Processing

Wolumin 23

Numer czasopisma 1-12

Strony

Rok 2015

Uwagi Edytor czasopisma

Słowa kluczowe Redakcja czasopisma

Projekt badawczy DS

Pozycja nr 180

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Plewa, B. Kostek

Tytuł angielski Music Mood Visualization Using Self-Organizing Maps

Tytuł polski Wizualizacja nastroju muzyki z wykorzystaniem sieci samorganizującyh SOM

Czasopismo Archives of Acoustics

Wolumin 40

Numer czasopisma 4

Strony 513 - 525

Rok 2015

Uwagi DOI: 10.1515/aoa-2015-0051; link: http://acoustics.ippt.pan.pl/index.php/aa/article/view/1624/pdf_124

Abstract Due to an increasing amount of music being made available in digital form in the Internet, an automatic organization of music is sought. The paper presents an approach to graphical representation of mood of songs based on Self-Organizing Maps. Parameters describing mood of music are proposed and calculated and then analyzed employing correlation with mood dimensions based on the Multidimensional Scaling. A map is created in which music excerpts with similar mood are organized next to each other on the two-dimensional display. Keywords: music mood, music parameterization, MER (Music Emotion Recognition), MIR (Music Information Retrieval), Multidimensional Scaling (MDS), Principal Component Analysis (PCA), Self- Organizing Maps (SOM), ANN (Artificial Neural Networks).

Streszczenie Celem artykułu jest przedstawienie nowego podejścia do automatycznego zobrazowania nastroju związanego z utworem muzycznym. Kolejne badań etapy obejmują znalezienie opytmalnego wektora parametrów skorelowanego z nastrojem przypisanym do danego utworu w testach subiektywnych w wykorzystaniem analizy składowych głównych (PCA) i metody skalowania wielowymiarowego (MDS). Pokazano, że sieci samoorganizujące SOM lub sztuczne sieci ANN wytrenowane z wykorzystaniem zaproponowanego wektora parametrów pozwalają na efektywną automatyczną adnotację nastroju zawartego w utworze muzycznym. Uzyskane wyniki przedstawiono na zaproponowanym modelu wizualizacji nastroju muzyki.

Słowa kluczowe automatyczne rozpoznawanie nastroju w muzyce, parametryzacja sygnałów muzycznych, analiza składowych głównych (PCA), metoda skalowania wielowymiarowego (MDS), wyszukiwanie informacji muzycznej, sieci samorganizujące (SOM), sztuczne sieci neuronowe (ANN)

Projekt badawczy MODALITY

Pozycja nr 181

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, P. Odya, B. Kostek

Tytuł angielski Measurements and visualization of sound field distribution around organ pipe

Konferencja 19th IEEE Conference SPA 2015, Signal Processing: Algorithms, Architectures, Arrangements, and Applications

Numer preprintu

Numer

Wolumin

Strony 145 - 150

Miejsce konferencji Poznań, Polska

Data konferencji 23.9.2015- 25.9.2015

Abstract Measurements and visualization of acoustic field around an organ pipe are presented. Sound intensity technique was applied for this purpose. Measurements were performed in free field. The organ pipe was activated with a constant air flow, produced by an external compressor, aimed at obtaining long-term steady state responses of generated acoustic signal. Sound energy distribution was measured in a defined fixed grid of points by means of multichannel acoustic vector sensor. For a precise positioning of the acoustic probe the specialized Cartesian robot was applied. Obtained results made it possible to produce visualizations of sound intensity distribution of radiated acoustic energy around the considered organ pipe.

Słowa kluczowe ACOUSTIC VECTOR SENSOR, CARTESIAN ROBOT, ORGAN PIPE, SOUND INTENSITY MEASUREMENTS

Projekt badawczy NCN_POM

Pozycja nr 182

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Suchomski, P. Odya

Tytuł angielski Loudness Scaling Tests In Hearing Problems Detection

Tytuł polski Wykrywanie problemów ze słuchem z użyciem testów skalowania głośności

Konferencja AES 58th International Conference

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Aalborg, Dania

Data konferencji 28.6.2015- 30.6.2015

Abstract The number of people using portable audio players has increased significantly over the recent years. This implies the rise in the number of people having hearing loss problems. Therefore, there is a need to find appropriate procedures that simplify the process of the hearing problem detection. Investigations performed show that audiometric tests may not be sufficient to assess hearing in young people. Contrarily, the obtained results indicate the importance of loudness scaling tests in the process of hearing impairment measurements. A method for enhancing existing loudness scaling tests and its main features are described in the paper and compared with the LGOB (Loudness Growth in 1/2-octave bands) procedure, both created as applications implemented on a PC platform. The application designed is also used for setting too soft, comfortable and too loud sound levels when listening to music. The comparison results are shown and discussed.

Słowa kluczowe loudness scaling, hearing disorders, noise, LGOB

Projekt badawczy MODALITY

Pozycja nr 183

Typ pozycji: referat konferencyjny

Autorzy M. Plewa, B. Kostek

Tytuł angielski GRAPHICAL REPRESENTATION OF MUSIC SET BASED ON MOOD OF MUSIC

Tytuł polski GRAFICZNA PREZENTACJA ZBIORU MUZYCZNEGO OPARTA NA ANOTACJI NASTROJU MUZYKI

Konferencja 16th International Symposium on Sound Engineering and Tonmeistering

Numer preprintu

Numer

Wolumin

Strony 244 - 250

Miejsce konferencji Warszawa, Polska

Data konferencji 8.10.2015- 10.10.2015

Uwagi Rozdział w Materiałach konferencji ISSET'2015

Abstract One of the features for music recommendation, which is useful and intuitive for music listen-ers, is “mood”. The paper presents an approach to graphical representation of mood of music pieces. Subjective evaluation based on listening tests is performed for assigning mood labels of 150 pieces of music and placing them on the 2D mood plane. As a result, a map of songs is created, where music excerpts with similar mood are organized next to each other on the two-dimensional graphical representation. In addition, automatic mapping is performed based on Self-Organized Maps. Comparison and evaluation of the methods and results are then executed. All of the tests and analyses are based on the mood model proposed by authors derived from previous studies and experiments.

Streszczenie Nastrój muzyki jest intuicyjną i użyteczną cechą, która pozwala nawet niewykształconym muzycznie słuchaczom ocenić subiektywnie dany utwór muzyczny. W artykule przedstawiono graficzną prezentację zbioru utworów muzycznych opartą na mapowaniu utworów w kontekście ich nastroju. W eksperymencie dokonano subiektywnej oceny nastroju 150 fragmentów muzycznych, a następnie - zgodnie z przypisanymi ocenami - utwory te umieszczono na dwuwymiarowym modelu emocji. Wynikiem jest mapa, na której utwory o podobnym nastroju położone są w bliskiej odległości. Dodatkowo przeprowadzono automatyczne mapowanie przy użyciu samoorganizujących się sieci neuronowych, a następnie wyniki porównano z oceną subiektywną. Testy odsłuchowe oraz analizy zostały przeprowadzone z wykorzystaniem autorskiego graficznego modelu emocji, który został stworzony na podstawie obserwacji z poprzednich badań.

Słowa kluczowe Automatyczne rozpoznawanie nastroju muzyki, samoorganizujące się sieci neuronowe (SOM), ocena subiektywna,

Projekt badawczy MODALITY

Pozycja nr 184

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Editor's note

Tytuł polski Artykuł wstępny

Czasopismo J. Audio Eng. Soc.

Wolumin 63

Numer czasopisma 12

Strony 956 - 957

Rok 2015

Streszczenie W artykule wstępnym zawarto zasady dotyczące sygnowania artykułów identyfikatorem obiektów cyfrowych (doi), zarządzania identyfikatorami DOI dokonywane przez bazę crossref.org oraz przedstawiono bieżącą tematykę publikacyjną.

Słowa kluczowe słowa kluczowe: identyfikator dokumentu elektronicznego, doi, zarządzanie identyfikatorami doi

Pozycja nr 185

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Music Information Retrieval – Soft Computing versus Statistics

Tytuł polski Wyszukiwanie informacji muzycznej - algorytmy uczące versus metody statystyczne

Czasopismo

Wolumin LNCS

Numer czasopisma 9339

Strony 36 - 47

Rok 2015

Uwagi Saeed K., Homenda W., eds., Computer Information Systems and Industrial management, 14th IFIP TC 8 International Coneference, CISIM 2015, Warsaw, Poland, 24-26.10.2015

Abstract Music Information Retrieval (MIR) is an interdisciplinary research area that covers automated extraction of information from audio signals, music databases and services enabling the indexed information searching. In the early stages the primary focus of MIR was on music information through Query-by-Humming (QBH) applications, i.e. on identifying a piece of music by singing (singing/whistling), while more advanced implementations supporting Query-by-Example (QBE) searching resulted in names of audio tracks, song identifica-tion, etc. Both QBH and QBE required several steps, among others an optimized signal parametrization and the soft computing approach. Nowadays, MIR is associated with research based on the content analysis that is related to the retrieval of a musical style, genre or music referring to mood or emotions. Even though, this type of music retrieval called Query-by-Category still needs feature extraction and parametrization optimizing, but in this case search of global online music systems and services applications with their millions of users is based on statistical measures. The paper presents details concerning MIR back-ground and answers a question concerning usage of soft computing versus statistics, namely: why and when each of them should be employed. Keywords: Music Information Retrieval (MIR), feature extraction, soft computing, collaborative filtering (CF), similarity measures

Streszczenie W artykule przedstawiono przegląd zagadnień związanych z obszarem wyszukiwania informacji muzycznej. W pierwszej kolejności przywołano wczesne systemy bazujące na automatycznym wyszukiwaniu melodii (QBH, Query-by-Humming) i kolejne, tj.: wyszukiwanie przez przykład )Query-by-Example, QBE)oraz wyszukiwanie kategorii (Query-by-Category). Wskazano na potrzebę wykorzystania algorytmów uczących się w procesie automatycznego wyszukiwania muzyki oraz pokazano przykłady, gdy wykorzystywane metody oparte są na statystyce.

Słowa kluczowe Wyszukiwanie informacji muzycznej, parametryzacja muzyki, algorytmy uczące się, filtracja społecznościowa, miary podobieństwa

Projekt badawczy MODALITY

Pozycja nr 186

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Rosner, B. Kostek

Tytuł angielski Musical Instrument Separation Applied to Music Genre Classification

Tytuł polski Separacja instrumentów muzycznych w zastosowaniu do rozpoznawania gatunków muzycznych

Czasopismo Foundations of Intelligent Systems

Wolumin LNAI 9384

Numer czasopisma

Strony 420 - 430

Rok 2015

Uwagi Esposito F., Pivert O., Hacid M-S., Raś W.Z., Ferilli S. (eds.), 22nd International Symposium, ISMIS 2015, Lyon, France, 21-23.10.2015

Abstract This paper outlines first issues related to music genre classification and a short description of algorithms used for musical instrument separation. Also, the paper presents proposed optimization of the feature vectors used for music genre recognition. Then, the ability of decision algorithms to properly recognize music genres is discussed based on two databases. In addition, results are cited for another database with regard to the efficiency of the feature vector. Key words: Music Information Retrieval; musical instrument separation; music genre classification; decision systems

Streszczenie W artykule przedstawiono zagadnienia związane z automatycznym rozpoznawaniem gatunków muzycznych oraz przedstawiono algorytmy wykorzystane w separacji instrumentów muzycznych. Zastosowano też optymalizację wektora parametrów wykorzystywanego w klasyfikacji gatunków muzycznych oraz wyniki eksperymentów z użyciem algorytmów uczących się przeprowadzonych na dwóch bazach muzycznych.

Słowa kluczowe Słowa kluczowe: automatyczne rozpoznawanie muzyki, separacja ścieżek muzycznych, rozpoznawanie gatunku muzycznego, systemy decyzyjne

Projekt badawczy MODALITY

Pozycja nr 187

Typ pozycji: patent

Autorzy B. Kostek, A. Czyżewski, P. Hoffmann

Tytuł polski Sposób modyfikacji częstotliwościowej sygnału dźwiękowego i układ do modyfikacji częstotliwościowej sygnału dźwiękowego

Numer patentu EP15460077

Data zgłoszenia 23.9.2015

Streszczenie Przedmiotem wynalazku jest sposób modyfikacji częstotliwościowej sygnału dźwiękowego i układ do modyfikacji częstotliwościowej sygnału dźwiękowego, przeznaczony zwłaszcza do wykorzystania w pokojach odsłuchowych oraz studiach nagraniowych.

Projekt badawczy MODALITY

Pozycja nr 188

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Music genre classification applied to bass enhancement for mobile technology

Czasopismo Elektronika : konstrukcje, technologie, zastosowania

Wolumin

Numer czasopisma 4

Strony 14 - 19

Rok 2015

Abstract The aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) algorithms applied to portable computers. The proposed algorithm is related to intelligent, rule-based setting of synthesis parameters according to music genre of an audio excerpt. The classification of music genres is automatically executed employing MPEG 7 parameters and the Principal Component Analysis method applied to reduce information redundancy. To perform genre recognition k-Nearest Neighbors classifier is used. The VBS algorithm is based on nonlinear device (NLD) or phase vocoder (PV) depending on the content of an audio file excerpt. A soft computing (fuzzy logic) algorithm is employed to set optimum synthesis parameters depending on a given song. To confirm the relationship between genres and preferences of listeners in the low frequency range the pairwise subjective comparison test is carried out. In tests 30 pairs of audio files are employed divided into six popular musical genres. Music excerpts processed by a commercially available bass boost algorithm are used for comparison. Based on the responses of the listeners the statistical analysis is carried out. A short summary is also provided that contains plans for future algorithm development.

Słowa kluczowe AUTOMATIC MUSIC GENRE CLASSIFICATION, DIGITAL SIGNAL PROCESSING, LOW FREQUENCY ENHANCEMENT, VIRTUAL BASS ALGORITHM

Projekt badawczy MODALITY

Pozycja nr 189

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł polski AUTOMATYCZNE ROZPOZNAWANIE GATUNKÓW MUZYCZNYCH W APLIKACJI SYNTEZUJĄCEJ NISKIE CZĘSTOTLIWOŚCI W URZĄDZENIACH MOBILNYCH

Konferencja 16th International Symposium on Sound Engineering and Tonmeistering Warszawa, 8-10 October 2015

Numer preprintu

Numer

Wolumin

Strony 100 - 107

Miejsce konferencji Warszawa, Polska

Data konferencji 8.10.2015- 10.10.2015

Numer pozycji bibl. 19

Streszczenie W pracy został opisany inteligentny algorytm syntezy niskich częstotliwości w urządzeniach mobilnych (Smart VBS). Algorytm Smart VBS rozpoznaje gatunek muzyczny i w zależności od wskazania dobiera optymalne parametry syntezy niskich częstotliwości. Synteza niskich częstotliwości odbywa się z wykorzystaniem metody funkcji nieliniowych (NLD). Modyfikacji podlega wykorzystywana funkcja nieliniowa, liczba oraz poziom wzmocnienia dodawanych harmonicznych. Algorytm został przygotowany w formie aplikacji napisanej w języku C++ z warstwą wizualną QT. Aplikacja zapewnia możliwość rozpoznania sześciu najpopularniejszych gatunków muzycznych: classical, electronic, jazz, pop, rap, rock. Na podstawie przeprowadzonych subiektywnych testów odsłuchowych przygotowane zostały zestawy predefiniowanych ustawień, które w sposób dynamiczny dopasowują się aktualnie przetwarzanego pliku muzycznego. Końcowym rezultatem pracy programu jest plik foniczny zmodyfikowany zgodnie z rozpoznanym gatunkiem.

Słowa kluczowe K-NN, ROZPOZNAWANIE GATUNKÓW, VIRTUALL BASS SYNTHESIS

Projekt badawczy MODALITY

Pozycja nr 190

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, J. Kotus, M. Szczodrak, B. Kostek, A. Czyżewski

Tytuł polski Analiza drgań struny gitarowej z użyciem szybkich kamer

Konferencja 16th International Symposium on Sound Engineering and Tonmeistering

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 8.10.2015- 10.10.2015

Streszczenie W referacie przedstawiono metodę analizy i wizualizacji ruchu struny gitarowej. Drgania struny zostały zarejestrowane za pomocą szybkich kamer. Układ optyczny zastosowany do rejestracji został dobrany w taki sposób, by móc obserwować drgania wzdłuż struny. Obrazy zarejestrowane za pomocą szybkich kamer zostały przeanalizowane za pomocą algorytmów cyfrowego przetwarzania sygnałów tak, aby z dużą dokładnością śledzić wychylenia i odkształcenia struny, poprawić rozdzielczość przestrzenną i przekształcić te dane na przebieg akustyczny. Sygnał akustyczny obliczony na podstawie analizy wizyjnej został porównany z sygnałem odniesienia, zarejestrowanym za pomocą mikrofonu pomiarowego. Przeprowadzone badania mają na celu poznanie zjawiska przekazywania energii drgającej struny do korpusu instrumentu.

Słowa kluczowe dragnia; struna; kamery szybkoklatkowe

Projekt badawczy NCN_POM

Pozycja nr 191

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Suchomski, B. Kostek

Tytuł angielski Fitting of the sound dynamics characteristics to the hearing preferences of the user of mobile devices

Tytuł polski Dopasowanie charakterystyki dynamiki dźwięku do preferencji słuchowych użytkownika urządzeń mobilnych

Czasopismo Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Wolumin

Numer czasopisma 8-9

Strony 1360 - 1364

Rok 2015

Uwagi XXXI Krajowe Sympozjum Telekomunikacji i Teleinformatyki Kraków 16-18 września 2015 (KSTiT'2015)

Streszczenie W celu określenia preferowanej charakterystyki dynamiki generowanych dźwięków należy uzyskać informację, w jaki sposób użytkownik postrzega głośność dźwięków o różnym poziomie dźwięku. Poruszany problem należy rozpatrywać oddzielnie dla dwóch grup użytkowników – osób słyszących prawidłowo oraz osób z ubytkiem słuchu. W pierwszym przypadku należy zadbać o to, aby wyznaczona charakterystyka dynamiki właściwie przetwarzała dźwięki o poziomach ocenianych odpowiednio jako za ciche, komfortowe i za głośne. W przypadku drugiej grupy użytkowników należy wyznaczyć charakterystykę dynami-ki, która pozwoli dopasować szeroką dynamikę odtwarza-nych dźwięków do zawężonej dynamiki uszkodzonego słuchu. W obu przypadkach do oceny wrażenia głośności można wykorzystać odpowiednio dopasowany test skalo-wania głośności. W niniejszym referacie zaprezentowano metody określenia charakterystyki dynamiki dźwięku dla obu wymienionych grup użytkowników z wykorzystaniem zaproponowanej metody szybkiej oceny wrażenia głośności

Słowa kluczowe dynamika dźwięku, skalowanie głośności, preferencje słuchowe, kompresja dynamiki

Projekt badawczy MODALITY

Pozycja nr 192

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Music Genre Recognition in the Rough Set- Based Environment

Konferencja

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 30.6.2015- 3.7.2015

Abstract The aim of this paper is to investigate music genre recognition in the rough set-based environment. Experiments involve a parameterized music data- base containing 1100 music excerpts. The database is divided into 11 classes cor-responding to music genres. Tests are conducted using the Rough Set Exploration System (RSES), a toolset for analyzing data with the use of methods based on the rough set theory. Classification effectiveness employing rough sets is compared against k-Nearest Neighbors (k-NN) and Local Transfer function classifiers (LTF-C). Results obtained are analyzed in terms of global class recognition and also per genre.

Słowa kluczowe Genre Recognition, k-NN, Rough Set

Projekt badawczy MODALITY

Pozycja nr 193

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Evaluation of a Novel Approach to Virtual Bass Synthesis Strategy

Konferencja 138th Convention of Audio Engineering Society 2015

Numer preprintu

Numer

Wolumin

Strony 3 - 7

Miejsce konferencji Warszawa, Polska

Data konferencji 7.5.2015- 10.5.2015

Abstract The aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) strategy applied to portable computers. The developed algorithms involve intelligent, rule-based settings of bass synthesis parameters with regard to music genre of an audio excerpt and the type of a portable device in use. The Smart VBS algorithm performs the synthesis based on a nonlinear device (NLD) with artificial controlling synthesis system according to music genre. Classification of musical genres is performed using the k-Nearest Neighbor algorithm and the extracted MPEG 7-based feature vectors optimized by the Principal Component Analysis method. To confirm the relationship between the presented excerpt of music from a variety of music genres and the listener’s preferences, subjective tests using the Mushra method are performed. On the basis of the listeners’ opinions statistical tests are carried out and show that listeners in most cases prefer the SVBS strategy developed by the authors in comparison to either an audio excerpt with the bass boost algorithm applied and unprocessed audio file. Furthermore, the listeners indicated that perception of the proposed SVBS strategy is similar for different types of portable devices.

Słowa kluczowe Virtual Bass Synthesis, K-NN, Genre Recognition

Projekt badawczy MODALITY

Pozycja nr 194

Typ pozycji: referat konferencyjny

Autorzy K. Łopatka, J. Kotus, P. Suchomski, A. Czyżewski, B. Kostek

Tytuł angielski Personal adaptive tuning of mobile computer audio

Tytuł polski Adaptacyjne strojenie dźwięku do osobistych preferencji użytkownika komputera przenośnego

Konferencja 139th AES Convention

Numer preprintu 9455

Numer

Wolumin

Strony

Miejsce konferencji New York, USA

Data konferencji 29.10.2015- 1.11.2015

Uwagi Streszczenie w czasopiśmie: J. Audio Eng. Society, vol. 63, no. 12, p. 1091, 2015.

Abstract An integrated methodology for enhancing audio quality in mobile computers is presented. The key features are adaptation of the characteristics of the acoustic track to the changing conditions and to the user's individual preferences. Original signal processing algorithms are introduced, which concern: linearization of frequency response, dialogue intelligibility enhancement and dynamics processing tuned up to the user's preferences. The details of the algorithm implemented in the C++ programming language are provided. The processing is performed utilizing custom Audio Processing Objects (APO) installed in Windows sound system. The sound enhancement bundle is managed with a User Interface enabling control over the sound system. The results of subjective evaluation of the introduced methods devices are discussed.

Słowa kluczowe Mobile audio; loudness adjustment; dialogue enhancement

Projekt badawczy MODALITY

Pozycja nr 195

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, A. Korzeniewski, P. Odya, P. Szczuko, B. Kostek

Tytuł angielski Survey on applications of multimedia technology to examine impact of roadside advertising on drivers

Tytuł polski Badania na temat zastosowania technologii multimedialnych w celu zbadania wpływu reklamy przydrożnych na kierowców

Konferencja 8th International Conference: Multimedia Communications, Services and Security (MCSS)

Numer preprintu

Numer 566

Wolumin

Strony 141 - 155

Miejsce konferencji Kraków, Polska

Data konferencji 24.11.2015- 24.11.2015

Identyfikator DOI 10.1007/978-3-319-26404-2_12

Uwagi Communications in Computer and Information Science 566,

Abstract The correct location of ads, both static and moving, in close proximity of the roadway is an issue of high significance in the context of road safety. This publication aims to provide support in solving these issues by presenting a range of options for the implementation of extensive, multi-faceted research, using modern technology to allow an objective assessment of the risks arising from the presence of advertising spots in the roadway. The chosen research tools include the drivers’ reaction tracking systems based on the use of advanced multimedia technology. These systems may be integrated in the actual vehicle, allowing for performing the tests in real-life conditions or as part of an extended driving simulator. In addition, a part of the proposed approaches to researching the problem is to check drivers’ opinion using questionnaires and to analyze the traffic accidents taking place in close proximity to road advertising.

Słowa kluczowe advertising, billboard, roads, road traffic safety

Pozycja nr 196

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek, J. Kotus, A. Czyżewski

Tytuł angielski Rough Set Based Modeling and Visualization of the Acoustic Field Around the Human Head

Konferencja PReMI 2015

Numer preprintu

Numer

Wolumin

Strony 418 - 427

Miejsce konferencji Warszawa,

Data konferencji 30.6.2015- 3.7.2015

Identyfikator DOI 10.1007/978-3-319-19941-2_40

Uwagi M. Kryszkiewicz et al. (Eds.): PReMI 2015, LNCS 9124. DOI: 10.1007/978-3-319-19941-2_40

Abstract The presented research aims at modeling acoustical wave propagation phenomena by applying rough set theory in a novel manner. In a typical listening environment sound intensity is determined by numerous factors: a distance from a sound source, signal levels and frequencies, obstacles’ locations and sizes. Contrarily, a free-field is characterized by direct, unimpeded propagation of the acoustical waves. The proposed approach is focused on processing sound field measurements performed in an anechoic chamber, collected by a dedicated acoustic probe, comprising thousands of datapoints for six signal frequencies, with and without the presence of a dummy head in a free-field. The rough set theory is applied for modeling the influence of an obstacle that a dummy head creates in a free-field and the effects of the head acoustic interferences, shading and diffraction. A data pre-processing method is proposed, involving coordinate system transformation, data discretization, and classification. Four rule sets are acquired, and achieved accuracy and coverage are assessed. Final results allow simplification of the model and new method for visualization.

Słowa kluczowe Rough sets, Imprecision, Acoustical field visualization

Projekt badawczy NCN_POM

Pozycja nr 197

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek

Tytuł polski Długoterminowa ocena poziomu hałasu w wybranych szkołach

Konferencja XII sesja metodyczna, Jak kreować bezpieczny świat ucznia?

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 4.3.2015- 4.3.2015

Uwagi Prezentacja wygłoszona podczas XII sesji metodycznej, zorganizowanej przez Pedagogiczną Bibliotekę Wojewódzką w Gdańsku pod hasłem: Jak kreować bezpieczny świat ucznia?

Streszczenie W trakcie wystąpienia zostaną przedstawione doświadczenia autorów związane z długoterminowymi pomiarami poziomu hałasu w wybranych szkołach. Pomiary wykonano za pomocą stacji pomiarowej zamontowanej na stałe w wybranych szkołach. Pomiary były prowadzone przez 24 godziny na dobę. Obejmowały wyznaczanie parametrów szerokopasmowych jak również rozkład energii akustycznej w pasmach o szerokości 1/3 oktawy. We wprowadzeniu przybliżono znaczenie poszczególnych parametrów akustycznych. W toku wystąpienia zaprezentowano wyniki pomiarów hałasu przed wykonaniem adaptacji akustycznej oraz po jej zastosowaniu. Dodatkowo omówiono problematykę wpływu hałasu na słuch. Zilustrowano to zagadnienie wynikami symulacji zmiany czasowego przesunięcia progu słyszenia w następstwie ekspozycji na hałas panujący podczas przerw międzylekcyjnych. W trakcie wystąpienia przedstawiono również możliwe do zastosowania metody ograniczenia szkodliwego oddziaływania hałasu.

Słowa kluczowe HAŁAS W SZKOŁACH, POMIARY HAŁASU, SŁUCH, WPŁYW HAŁASU NA SŁUCH

Projekt badawczy DS

Pozycja nr 198

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, T. Sanner, B. Kostek

Tytuł angielski An Approach to Bass Enhancement in Portable Computers Employing Smart Virtual Bass Synthesis Algorithms

Konferencja AES 136th Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Berlin, Niemcy

Data konferencji 26.4.2014- 29.4.2014

Abstract The aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) algorithms applied to portable computers. The developed algorithms are related to intelligent, rule-based setting of synthesis parameters according to music genre of an audio excerpt and to the type of a portable device in use. To find optimum synthesis parameters of the VBS algorithms, subjective listening tests based on a parametric procedure were performed. The classification of music genres is automatically executed employing MPEG 7 parameters and the Principal Component Analysis method applied to reduce information redundancy. The VBS algorithm performs the synthesis based on a nonlinear device (NLD) or phase vocoder (PV) depending on the content of an audio file excerpt. A soft computing (fuzzy logic) algorithm is employed to set optimum synthesis parameters depending on a given song.

Słowa kluczowe Virtual Bass Synthesis, inteligent, NLD, PV, Music Genre Classifacation

Projekt badawczy MODALITY

Pozycja nr 199

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, A. Czyżewski, W. Kucharski, B. Kostek

Tytuł angielski Computer-Supported Polysensory Integration Technology for Educationally Handicapped Pupils

Czasopismo Lecture Notes in Artificial Intelligence

Wolumin 8502

Numer czasopisma

Strony 224 - 233

Rok 2014

Numer pozycji bibl. 17

Uwagi tytuł monografii: Foundations of Intelligent Systems, materiały konferencyjne z 21st International Symposium on Methodologies for Intelligent Systems, ISMIS 2014, Roskilde, Dania

Abstract In this paper, a multimedia system providing technology for hearing and visual attention stimulation is shortly presented. The system aims to support the development of educationally handicapped pupils. The system has been presented in the context of its configuration, architecture, and therapeutic exercise implementation issues. Results of pupils’ improvements after 8 weeks of training with the system are also provided. Training with the system led to the development spatial orientation and understanding cause-and-effect relationships.

Słowa kluczowe Polysensory Stimulation, Computerbased therapeutic exercises, Educationally handicapped pupils

Projekt badawczy DS

Pozycja nr 200

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, F. Rumsey, W. McQuaide

Tytuł angielski EDITOR’S NOTE

Tytuł polski Nota od Edytora

Czasopismo J. Audio Eng. Soc.

Wolumin 62

Numer czasopisma 1/2

Strony 3

Rok 2014

Streszczenie W edytorialu zawarto zasady dotyczące publikacji Open Access (otwartego dostępu do publikacji) oraz bieżące trendy publikacyjne.

Słowa kluczowe Open Access, otwarty dostęp do publikacji

Projekt badawczy DS

Pozycja nr 201

Typ pozycji: referat konferencyjny

Autorzy M. Szczodrak, J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski Application of PL-Grid platform for modeling of the selected acoustic phenomena

Konferencja CGW (Cracow Grid Workshop) 2014

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kraków, Polska

Data konferencji 27.10.2014- 29.10.2014

Abstract Domain grids are specific computational environments, developed within the PLGrid Plus project. For the Acoustic domain grid two supercomputer grid based services were prepared. Dedicated software consists of the outdoor sound propagation module and psychoacoustical noise dosimeter. The results are presented in a form of maps of sound level and Temporary Threshold Shift (TTS) values, therefore the services may play an informative role in the field of noise harmfulness.

Słowa kluczowe noise, noise map, noise threat, grid computing

Pozycja nr 202

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek

Tytuł polski Modelowanie propagacji hałasu i jego wpływu na słuch z wykorzystaniem platformy obliczeniowej PL Grid Plus

Konferencja XV Międzynarodowe Sympozjum Nowości w Technice Audio i Wideo

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wrocław, Polska

Data konferencji 25.9.2014- 27.9.2014

Streszczenie W referacie przedstawiono usługi dostępne w gridzie dziedzinowym Akustyka, opracowane w ramach projektu PL Grid Plus. Przygotowane usługi umożliwiają modelowanie propagacji hałasu w środowisku aglomeracji miejskiej pochodzącego ze źródeł liniowych (drogi), punktowych lub powierzchniowych (hałas przemysłowy, imprezy plenerowe) z wykorzystaniem klastrów obliczeniowych. Na podstawie uzyskanych wyników rozkładu poziomu hałasu możliwe jest przeprowadzenie dalszych symulacji ukazujących skutki słuchowe oddziaływania hałasu na organ słuchu. Opracowane narzędzia dają duże możliwości w zakresie definiowania scenariuszy obliczeniowych i sytuacyjnych dzięki temu mają istotny walor dydaktyczny i poznawczy.

Słowa kluczowe hałas; superkomputer; mapy hałasu; szkodliwość hałasu

Pozycja nr 203

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Hoffmann, T. Sanner

Tytuł angielski Smart Virtual Bass Synthesis Algorithm Based on Music Genre Classification

Konferencja Signal Processing Algorithms, Architectures, Arrangements, and Applications

Numer preprintu

Numer

Wolumin

Strony 71 - 76

Miejsce konferencji Poznań, Polska

Data konferencji 22.9.2014- 24.9.2014

Numer pozycji bibl. 24

Abstract The aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) algorithms applied to portable computers. The proposed algorithm employed automatic music genre recognition to determine the optimum parameters for the synthesis of additional frequencies. The synthesis was carried out using the non-linear device (NLD) and phase vocoder (PV) methods depending on the music excerpt genre. Classification of musical genres was performed utilizing the k-Nearest Neighbor algorithm and the extracted MPEG 7-based feature vectors. To confirm the relationship between the presented music excerpt genre and the listener’s preferences, subjective tests were carried out. The pairwise comparison test was performed. Test material consisted of 18 pair samples belonging to six music genres: classical, pop, rock, rap, jazz, electronic. For comparison purposes music samples were prepared with the benchmark MaxxBass system and the Smart VBS algorithm proposed by the authors. On the basis of the listeners’ opinions statistical tests were carried out to confirm the validity of adjusting low frequency synthesis settings according to the music content of audio files.

Słowa kluczowe DIGITAL SIGNAL PROCESSING, VIRTUAL BASS ALGORITHM, LOW FREQUENCY ENHANCEMENT, AUTOMATIC MUSIC GENRE CLASSIFICATION.

Projekt badawczy MODALITY

Pozycja nr 204

Typ pozycji: patent

Autorzy A. Czyzewski, B. Kunka, A. Kwiatkowska, B. Kostek

Tytuł polski System CyberOko do diagnozy i terapii osób w śpiączce

Numer patentu

Data zgłoszenia 5.5.2014

Abstract Przedmiotem zgłoszenia :know-how" jest system CyberOko do diagnozy i terapii osób w śpiączce, opracowany w ramach projektu "Typoszereg interfejsów multimodalnych..."

Pozycja nr 205

Typ pozycji: książka

Autorzy B. Kostek

Tytuł polski Psychoakustyka realizowana na Politechnice Gdańskiej

Wydawca Komitet Akustyki Polskiej Akademii Nauk, Warszawa 2014

Strony 95 - 98

Rok 2014

Uwagi Rozdział w książce: 50 lat Komitetu Akustyki Polskiej Akademii Nauk, 1964-2014, Osiągnięcia i wydarzenia, pod red. A. Śliwińskiego i E. Kozaczki

Streszczenie W pracach naukowo-badawczych, wdrożeniowych oraz dydaktyce zespołów pracujących w Systemów Multimedialnych i Laboratorium Akustyki Fonicznej (WETI, PG) można wyróżnić kilka nurtów tematycznie dotyczących zagadnień psychoakustyki i ich zastosowań w akustyce fonicznej i inżynierii dźwięku i obrazu (leżących na pograniczu akustyki, telekomunikacji, nauk kognitywnych i informatyki oraz inżynierii biomedycznej). Wynikiem tych prac były zarówno publikacje: monografie (poz. pogrubione), rozdz. w książkach w wydawnictwach zagranicznych i krajowych, artykuły (wybrane pozycje) i referaty, jak również osiągnięcia o charakterze aplikacyjno-wdrożeniowym

Słowa kluczowe psychoakustyka, inżynieria dźwięku i obrazu, akustyka foniczna, nauki kognitywne

Projekt badawczy DS

Pozycja nr 206

Typ pozycji: patent

Autorzy A. Czyżewski, B. Kostek, P. Odya

Tytuł polski Sposób wzrokowego wykonywania utworów dźwiękowych na instrumentach muzycznych z wykorzystaniem zapisu nutowego oraz układ do realizacji tego sposobu

Numer patentu P407812

Data zgłoszenia 7.4.2014

Uwagi zgłoszenie patentowe

Słowa kluczowe MIDI, INSTRUMENTY MUZYCZNE, WZROK

Pozycja nr 207

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, A. Kupryjanow, A. Czyżewski

Tytuł angielski Knowledge representation of motor activity of patients with Parkinson’s disease

Tytuł polski Paramteryzacja sygnałów biomedycznych pochodzących z aktywności ruchowej osób z chorobą Parkinsona

Czasopismo Natural Computing An International Journal, DOI: 10.1007/s11047-014-9475-0

Wolumin

Numer czasopisma Dec.

Strony 1 - 13

Rok 2014

Uwagi DOI: 10.1007/s11047-014-9475-0, link do artykułu: http://link.springer.com/article/10.1007/s11047-014-9475-0/fulltext.html

Abstract An approach to the knowledge representation extraction from biomedical signals analysis concerning motor activity of Parkinson disease patients is proposed in this paper. This is done utilizing accelerometers attached to their body as well as exploiting video image of their hand movements. Experiments are carried out employing artificial neural networks and support vector machine to the recognition of characteristic motor activity disorders in patients. Obtained results indicate that it is possible to interpret some selected patient’s body movements with a sufficiently high effectiveness.

Streszczenie W artykule przedstawiono analizę sygnałów biomedycznych zebranych za pomocą czujników w trakcie wybranych aktywności osoby z chorobą Parkinsona. Sparametryzowane sygnały zostały wykorzystane do automatycznego rozpoznawania aktywności za pomocą sztucznych sieci neuronowych i SVM. Zaproponowane metody akwizycji, parametryzacji oraz klasyfikacji okazały się skuteczne w automatycznym rozpoznawaniu aktywności ruchów rąk i chodu.

Słowa kluczowe Parkinson disease, biomedical signals analysis, artificial neural networks,support vector machine choroba Parkinsona, analiza sygnałów biomedycznych, sztuczne sieci neuronowe, SVM

Pozycja nr 208

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szczodrak, J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski Supercomputing Grid-Based Services for Hearing Protection and Acoustical Urban Planning, Research & Education

Czasopismo Lecture Notes in Computer Science

Wolumin 8500

Numer czasopisma

Strony 263 - 277

Rok 2014

Uwagi DOI: 10.1007/978-3-319-10894-0_19

Abstract Specific computational environments, so-called domain grids, are developed within the PLGrid Plus project in order to prepare specialized IT solutions, i.e., dedicated software implementations and hardware (infrastructure adaptation), suited for particular research group demands. One of the PLGrid Plus domain grids, presented in this paper, is Acoustics. The article describes in detail two kinds of the acoustic domain services. The first can be used to calculate noise maps of large city areas, and is called "Noise Map". The second, called the "Hearing" service, enables simulations of noise impact on the human hearing system. Several kinds of usage scenarios of the developed services are also presented and illustrated by exemplary results. The infrastructure and the software developed can be utilized mainly for research and education purposes. The engineered software is intended for creating maps of noise threat for roads, railways and industrial sources. Integration of the software services with a distributed sensor network enables to automatically update the noise maps for a specific time period. A unique feature of the developed software is the possibility to estimate the auditory effects, which are caused by the exposure to noise. This estimation is based on the calculated noise levels and on a given exposure period. The outcomes of this research study are presented in form of a cumulative noise dose and characteristics of the temporary threshold shift.

Słowa kluczowe noise, road noise, noise threat, supercomputer grid, noise dosimetry

Pozycja nr 209

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Hoffmann, T. Sanner

Tytuł polski Inteligentna Synteza Niskich Częstotliwości w urządzeniach mobilnych

Konferencja KRAJOWE SYMPOZJUM TELEKOMUNIKACJI I TELEINFORMATYKI – KSTIT 2014

Numer preprintu

Numer

Wolumin

Strony 905 - 913

Miejsce konferencji Poznań, Polska

Data konferencji 3.9.2014- 5.9.2014

Numer pozycji bibl. 24

Uwagi Referat ukazał się w Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne 9-9/2014

Streszczenie W pracy przedstawiono algorytm inteligentnej adaptacji parametrów syntezy niskich częstotliwości w urządzeniach przenośnych w zależności od odtwarzanego gatunku muzycznego (Smart VBS). Proponowany algorytm wykorzystuje metody generacji harmonicznych oparte na generatorze funkcji nieliniowych (NLD) i wokoderze fazowym (PV). Dla znalezienia optymalnych parametrów syntezy przeprowadzono testy subiektywne sprawdzające powiązanie parametrów ze zdefiniowanym gatunkiem muzycznym. Odpowiedzi respondentów poddano analizie statystycznej, która potwierdziła powiązanie preferencji słuchowych z gatunkiem muzycznym.

Słowa kluczowe GATUNEK, KNN, NISKIE CZĘSTOTLIWOŚCI, SYNTEZA, VBS

Projekt badawczy MODALITY

Pozycja nr 210

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Hoffmann, T. Sanner

Tytuł polski Inteligentna Synteza Niskich Częstotliwości w urządzeniach mobilnych

Czasopismo Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Wolumin

Numer czasopisma 8-9

Strony 905 - 913

Rok 2014

Numer pozycji bibl. 24

Streszczenie W pracy przedstawiono algorytm inteligentnej adaptacji parametrów syntezy niskich częstotliwości w urządzeniach przenośnych w zależności od odtwarzanego gatunku muzycznego (Smart VBS). Proponowany algorytm wykorzystuje metody generacji harmonicznych oparte na generatorze funkcji nieliniowych (NLD) i wokoderze fazowym (PV). Dla znalezienia optymalnych parametrów syntezy przeprowadzono testy subiektywne sprawdzające powiązanie parametrów ze zdefiniowanym gatunkiem muzycznym. Odpowiedzi respondentów poddano analizie statystycznej, która potwierdziła powiązanie preferencji słuchowych z gatunkiem muzycznym.

Słowa kluczowe GATUNEK, KNN, NISKIE CZĘSTOTLIWOŚCI, SYNTEZA, VBS

Projekt badawczy MODALITY

Pozycja nr 211

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Hoffmann

Tytuł angielski SUBJECTIVE PERCEPTION OF MUSIC GENRES IN THE FIELD OF MUSIC INFORMATION RETRIEVAL SYSTEMS

Konferencja 15th International Symposium on New Trends in Audio and Video

Numer preprintu

Numer

Wolumin

Strony 1 - 7

Miejsce konferencji Wrocław, Polska

Data konferencji 25.9.2014- 27.9.2014

Numer pozycji bibl. 11

Abstract The aim of this paper is to evaluate the relationship between perception of music genres and subjective features of music that can be assigned to them. For this purpose a group of subjective features such as loudness, melody, rhythm, volume, instrumentation was chosen to describe music genres. A group of 30 listeners with normal hearing, ranging from 20 to 40, was created. Each sub-ject participating in listening tests was asked to choose perceptual features of music which best correspond to the given music genre. Music genres were limited to six most typical ones for this group of listeners, i.e.: Classical, Electronic, Jazz, Pop, Rap, Rock. On the basis of the listeners’ answers the statistical V-Cramer test was conducted to find the correlation between evaluated fea-tures and music genres. Identification of potential features that may be important for music recog-nizing can result in a more efficient automatic classification of music genres. Results of the carried out subjective tests and statistical analysis were included.

Słowa kluczowe MUSIC INFORMATION RETRIEVAL, MUSIC DATABASES, MUSIC PARAMETERIZATION, FEATURE VECTORS, PRINCIPAL COMPONENT ANALYSIS, MUSIC CLASSIFICATION

Projekt badawczy MODALITY

Pozycja nr 212

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Hoffmann

Tytuł angielski Music Data Processing and Mining in Large Databases for Active Media

Czasopismo Active Media Technology, Lecture Notes in Computer Science, Vol. 8610, Springer

Wolumin

Numer czasopisma

Strony 85 - 95

Rok 2014

Numer pozycji bibl. 31

Uwagi ISBN 978-3-319-09911-8

Abstract The aim of this paper was to investigate the problem of music data processing and mining in large databases. Tests were performed on a large data-base that included approximately 30000 audio files divided into 11 classes cor-responding to music genres with different cardinalities. Every audio file was de-scribed by a 173-element feature vector. To reduce the dimensionality of data the Principal Component Analysis (PCA) with variable value of factors was em-ployed. The tests were conducted in the WEKA application with the use of k-Nearest Neighbors (kNN), Bayesian Network (Net) and Sequential Minimal Op-timization (SMO) algorithms. All results were analyzed in terms of the recogni-tion rate and computation time efficiency.

Słowa kluczowe MUSIC PROCESSING, ACTIVE MEDIA, PCA, WEKA, DE-CISION ALGORITHMS, K-NEAREST NEIGHBORS (KNN), BAYESIAN NETWORK, SEQUENTIAL MINIMAL OPTIMIZATION

Projekt badawczy MODALITY

Pozycja nr 213

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Hoffmann

Tytuł angielski MUSIC INFORMATION RETRIEVAL, MUSIC DATABASES, MUSIC PARAMETERIZATION, FEATURE VECTORS, PRINCIPAL COMPONENT ANALYSIS, MUSIC CLASSIFICATION

Czasopismo Signal evaluation and monitoring in sound engineering

Wolumin

Numer czasopisma

Strony 49 - 56

Rok 2014

Numer pozycji bibl. 11

Uwagi ISBN 978-83-926476-2-1 Wrocław 2014

Abstract The aim of this paper is to evaluate the relationship between perception of music genres and subjective features of music that can be assigned to them. For this purpose a group of subjective features such as loudness, melody, rhythm, volume, instrumentation was chosen to describe music genres. A group of 30 listeners with normal hearing, ranging from 20 to 40, was created. Each sub-ject participating in listening tests was asked to choose perceptual features of music which best correspond to the given music genre. Music genres were limited to six most typical ones for this group of listeners, i.e.: Classical, Electronic, Jazz, Pop, Rap, Rock. On the basis of the listeners’ answers the statistical V-Cramer test was conducted to find the correlation between evaluated fea-tures and music genres. Identification of potential features that may be important for music recog-nizing can result in a more efficient automatic classification of music genres. Results of the carried out subjective tests and statistical analysis were included.

Słowa kluczowe MUSIC INFORMATION RETRIEVAL, MUSIC DATABASES, MUSIC PARAMETERIZATION, FEATURE VECTORS, PRINCIPAL COMPONENT ANALYSIS, MUSIC CLASSIFICATION

Projekt badawczy MODALITY

Pozycja nr 214

Typ pozycji: referat konferencyjny

Autorzy P. Hoffmann, B. Kostek

Tytuł angielski Music Data Processing and Mining in Large Databases for Active Media

Konferencja Active Media Technology, Warszawa 2014

Numer preprintu

Numer

Wolumin

Strony 85 - 95

Miejsce konferencji Warszawa, Polska

Data konferencji 11.8.2014- 14.8.2014

Numer pozycji bibl. 31

Uwagi Pod adresem: http://link.springer.com/book/10.1007%2F978-3-319-09912-5 lub w formie papierowej

Abstract The aim of this paper was to investigate the problem of music data processing and mining in large databases. Tests were performed on a large data-base that included approximately 30000 audio files divided into 11 classes cor-responding to music genres with different cardinalities. Every audio file was de-scribed by a 173-element feature vector. To reduce the dimensionality of data the Principal Component Analysis (PCA) with variable value of factors was em-ployed. The tests were conducted in the WEKA application with the use of k-Nearest Neighbors (kNN), Bayesian Network (Net) and Sequential Minimal Op-timization (SMO) algorithms. All results were analyzed in terms of the recogni-tion rate and computation time efficiency.

Słowa kluczowe MUSIC PROCESSING, ACTIVE MEDIA, PCA, WEKA, DE-CISION ALGORITHMS, K-NEAREST NEIGHBORS (KNN), BAYESIAN NETWORK, SEQUENTIAL MINIMAL OPTIMIZATION

Projekt badawczy MODALITY

Pozycja nr 215

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Szczodrak, K. Marciniuk, A. Czyżewski, B. Kostek

Tytuł angielski Creating Dynamic Psychoacoustic Maps of Hearing Threats for Outdoor Concerts Employing Supercomputing Grid

Konferencja 136th International AES Convention

Numer preprintu eBrief 150

Numer

Wolumin

Strony

Miejsce konferencji Berlin, Germany

Data konferencji 26.4.2014- 29.4.2014

Abstract The auditory effects caused by the outdoor concert are discussed in this paper. The analysis is based on the computation results obtained by means of supercomputing PL-Grid infrastructure and specific computational algorithms developed by the authors. The software consists of the outdoor sound propagation module and psychoacoustical noise dosimeter. The simulation was performed by means of real music recordings and the following outdoor propagation conditions were taken into account: speaker directivity, ground effect, building reflection, distance attenuation, and sound absorption by the atmosphere. On the basis of the proposed methodology the dynamic (one minute time resolution) psychoacoustic maps of hearing threats for considered area were created expressed by TTS (Temporary Threshold Shift) values in critical bands. Moreover, the results include also maps of sound level and noise dose values.

Słowa kluczowe noise, noise threat, supercomputing grid, occupational noise

Pozycja nr 216

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Hoffmann, P. Spaleniak, A. Kaczmarek

Tytuł angielski Creating a Realible Music Discovery and Recomendation System

Czasopismo Intelligent Tools for Building a Scientific Information Platform, Springer Verlag

Wolumin

Numer czasopisma

Strony

Rok 2014

Numer pozycji bibl. 32

Abstract The aim of this paper is to show problems related to creating a reliable music dis-covery system. The SYNAT database that contains audio files is used for the purpose of experiments. The files are divided into 22 classes corresponding to music genres with different cardinality. Of utmost importance for a reliable music recommendation system are the assignment of audio files to their appropriate gen-res and optimum parameterization for music-genre recognition. Hence, the start-ing point is audio file filtering, which can only be done automatically, but to a limited extent, when based on low-level signal processing features. Therefore, a variety of parameterization techniques are shortly reviewed in the context of their suitability to music retrieval from a large music database. In addition, some sig-nificant problems related to choosing an excerpt of audio file for an acoustic anal-ysis and parameterization are pointed out. Then, experiments showing results of searching for songs that bear the greatest resemblance to the song in a given que-ry are presented. In this way music recommendation system may be created that enables to retrieve songs that are similar to each other in terms of their low-level feature description and genre inclusion. The experiments performed also provide basis for more general observations and conclusions.

Słowa kluczowe Music Information Retrieval, Music Databases, Music Parameterization, Feature Vectors, Principal Component Analysis, Music Classification

Projekt badawczy SYNAT

Pozycja nr 217

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Auditory Display Applied to Research in Music and Acoustics

Tytuł polski Obrazowanie dźwiękowe w muzyce i akustyce

Czasopismo Archives of Acoustics

Wolumin 39

Numer czasopisma 2

Strony 203 - 214

Rok 2014

Uwagi 10.2478/aoa-2014-0025, link do artykułu: http://acoustics.ippt.pan.pl/index.php/aa/article/view/724

Abstract This paper presents a relationship between Auditory Display (AD) and the domains of music and acoustics. First, some basic notions of the Auditory Display area are shortly outlined. Then, the research trends and system solutions within the fields of music technology, music information retrieval and music recommendation and acoustics that are within the scope of AD are discussed. Finally, an example of AD solution based on gaze tracking that may facilitate music annotation process is shown. The paper concludes with a few remarks about directions for further research in the domains discussed.

Streszczenie W artykule przedstawiono szerzej zagadnienia obrazowania dźwiękowego w zastosowaniu w obszarze muzyki i akustyki. W pierwszej kolejności przedstawiono podstawowe pojęcia związane z obrazowaniem dźwiękowym oraz aktualne trendy badawcze. Pokazano również przykłady zastosowania systemów obrazowania dźwiękowego, rozwijanych w ramach dziedziny wyszukiwania informacji muzycznej i technologii muzycznych.

Słowa kluczowe Auditory Display, Music, Acoustics, Music Technology, Music Information Retrieval, Sonification, Music Annotation. Obrazowanie dźwiękowe, akustyka muzyczna, wyszukiwanie informacji muzycznej, technologia muzyczna, sonifikacja,

Pozycja nr 218

Typ pozycji: referat konferencyjny

Autorzy K. Marciniuk, J. Kotus, B. Kostek

Tytuł angielski Analysis od noise assessment of selected area in Gdansk

Tytuł polski Analiza warunków akustycznych dla wybranego obszaru miasta Gdańsk

Konferencja 15th International Symposium on New Trends in Audio and Video

Numer preprintu

Numer

Wolumin

Strony 1 - 10

Miejsce konferencji Wrocław, Polska

Data konferencji 25.9.2014- 27.9.2014

Abstract The subject of this study focuses on the noise condition analysis of selected areas in the city of Gdask with the use of a numerical model implemented on the supercomputer infrastructure. The numerical model of traffic noise and its main sources are briefly characterized. Then the correctness of the model based on the acoustical conditions of the chosen areas obtained by the system of sensors located in the city of Gdansk is analytically verified.

Streszczenie Celem pracy była analiza klimatu akustycznego wybranego obszaru miasta Gdaska. W badaniach wykorzystano odczyty z aparatury pomiarowej zainstalowanej w strategicznych miejscach obszaru poddanego analizie. Obliczenia numeryczne przeprowadzono w oparciu o sie superkomputerów. Zdefiniowano główne ródło hałasu w analizowanym rejonie oraz opisano jego model zast pczy. Wyniki pomiarów zbierane przez czujniki poddano analizie oraz przedstawiono wnioski dotyczce wymaganych korekt obliczeniowych.

Słowa kluczowe noise; noise maps; noise control; dynamic noice maps;

Pozycja nr 219

Typ pozycji: referat konferencyjny

Autorzy K. Milarska, A. Zakrzewski, B. Kostek

Tytuł polski Pomiary i analiza dźwięku w filmie oraz w reklamach filmowych z wykorzystaniem modelu głośności LKFS

Konferencja 15th International Symposium on New Trends in Audio and Video

Numer preprintu

Numer

Wolumin

Strony 1 - 13

Miejsce konferencji Wrocław, PL

Data konferencji 25.9.2014- 27.9.2014

Streszczenie Celem niniejszej pracy był pomiar dźwięku filmie, zapowiedziach filmów oraz reklamach poprzedzających projekcję filmu. W referacie w pierwszej kolejności przywołano problemy związane z pomiarem dźwięku, rekomendacje, które wskazują na dopuszczalne poziomy projekcji filmowej oraz przywołano jednostki, które są wykorzystywane w określaniu głośności projekcji. Następnie przedstawiono pomiary, kalibrację sprzętu pomiarowego oraz analizę otrzymanych wyników. W podsumowaniu zawarto wnioski dotyczące pomierzonych poziomów głośności w warunkach kinowych, płytach DVD i Blu-ray oraz w serwisie YouTube.

Słowa kluczowe zalecenie ITU-R BS.1770-3, pomiar głośności, LFKS, poziom równoważny, Loudness Unit relative to Full Scale

Projekt badawczy DS

Pozycja nr 220

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, F. Rumsey

Tytuł angielski EDITOR’S NOTE

Tytuł polski Edytorial

Czasopismo J. Audio Eng. Soc.

Wolumin 62

Numer czasopisma 12

Strony 820

Rok 2014

Streszczenie Edytorial zawiera opis nowych zasad publikowania w ramach tzw. otwartego dostępu (Open Access, OA) do publikacji, w odniesieniu do tzw. złotej drogi (otwarty dostęp do publikacji) i zielonej drogi (autoarchiwizacja publikacji) licencji Creative Commons OA. W edytorialu zawarto również odniesienie do wydania specjalnego czasopisma w obszarze dźwięku przestrzennego.

Słowa kluczowe otwarty dostęp do publikacji (Open Access),złota droga (otwarty dostęp do publikacji) i zielona droga (autoarchiwizacja publikacji)

Projekt badawczy DS

Pozycja nr 221

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Kurowski, P. Kryger, A. Czyżewski

Tytuł angielski Sound Field Intensity Measurements and Visualization around the Human Head Model

Tytuł polski Rozkłąd natężenia pola akustycznego w komorze bezechowej obecności sztucznej głowy i w przypadku braku jej obecności

Konferencja 137th Audio Eng. Society Convention

Numer preprintu 160

Numer

Wolumin

Strony 1 - 4

Miejsce konferencji Los Angeles, USA

Data konferencji 9.9.2014- 12.9.2014

Numer pozycji bibl. NCN

Uwagi link: http://www.aes.org/e-lib/browse.cfm?elib=17395, do projektu NCN

Abstract The main goal of this research study was to measure and visualize sound field intensity distribution in and without presence of the human head model. Measurements were performed in the anechoic chamber with the 5 cm grid. Experimental setup consisted of a multitone generator, two loudspeakers, human head model, intensimetric probe, the Cartesian robot applied for precise positioning of the acoustic sensor, and an analyzer. Based on the collected data a sound field visualization was created in the form of colored maps and arrows illustrating pressure and intensity vectors at a given point in the presence of the artificial head, as well as without this obstacle plus the difference resulted from the both mentioned conditions occurrence. A thorough analysis of the results obtained and conclusions follows the experiments presented in the paper.

Streszczenie W referacie przedstawiono wyniki analizy pomiarów akustycznych przeprowadzonych w komorze bezechowej z wykorzystaniem sondy USP. Na podstawie wyników uzyskanych z pomiarów ciśnienia akustycznego i prędkości cząstek dokonano wizualizacji rozkładu pola akustycznego w obecności sztucznej głowy i w przypadku braku jej obecności.

Słowa kluczowe pomiary akustyczne, komora bezechowa, sonda pomiarowa USP, trójosiowy pomiar prędkości cząstek

Pozycja nr 222

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Rosner, B. Schuller, B. Kostek

Tytuł angielski Classification of Music Genres Based on Music Separation into Harmonic and Drum Components

Tytuł polski Klasyfikacja gatunków muzycznych wykorzystująca separację instrumentów muzycznych

Czasopismo Archives of Acoustics

Wolumin 39

Numer czasopisma 4

Strony 629 - 638

Rok 2014

Uwagi DOI: 10.2478/aoa-2014-0068, link: http://acoustics.ippt.gov.pl/index.php/aa/issue/view/111

Abstract This article presents a study on music genre classification based on music separation into harmonic and drum components. For this purpose, audio signal separation is executed to extend the overall vector of parameters by new descriptors extracted from harmonic and/or drum music content. The study is performed using the ISMIS database of music files represented by vectors of parameters containing music features. The Support Vector Machine (SVM) classifier and co-training method adapted for the standard SVM are involved in genre classification. Also, some additional experiments are performed using reduced feature vectors, which improved the overall result. Finally, results and conclusions drawn from the study are presented, and suggestions for further work are outlined.

Streszczenie Artykuł przedstawia wyniki eksperymentów rozpoznawania gatunków muzycznych z zastosowaniem separacji instrumentów muzycznych w plikach fonicznych. W procesie klasyfikacji wykorzystywane są wektory parametrów ekstrahowane z pełnego pliku muzycznego, jak również obliczanych na odseparowanych ścieżkach dźwiękowych, maszyny wektorów nośnych SVM, jak również metoda nieujemnej faktoryzacji macierzy.

Słowa kluczowe Music Information Retrieval, musical sound separation, drum separation, music genre clas- sification, Support Vector Machine, co-training, Non-Negative Matrix Factorization. Wyszukiwanie informacji muzycznej, separacja instrumentów muzycznych, klasyfika

Projekt badawczy MODALITY

Pozycja nr 223

Typ pozycji: patent

Autorzy B. Kostek, P. Hoffmann, T. Sanner

Tytuł polski Sposób poprawy jakości brzmienia dźwięku w przenośnych urządzeniach elektronicznych i uklad do realizacji tego sposobu.

Numer patentu P.408563

Data zgłoszenia 16.6.2014

Uwagi zgłoszenie patentowe dokonane w 2014 r.

Streszczenie Przedmiotem wynalazku jest sposób poprawy jakości brzmienia dźwięku w przenośnych urządzeniach elektronicznych oraz układ do realizacji tego sposobu, mający w szczególności zastosowanie przy poprawie jakości dźwięku takich gatunków muzycznych jak classical, electrical, jazz, pop, rap, rock.

Słowa kluczowe DŹIWIEK, GATUNEK MUZYCZNY, INTELIGENCJA, POPRAWA JAKOŚCI, STEROWANIE

Projekt badawczy MODALITY

Pozycja nr 224

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Odya, B. Kunka, M. Lech

Tytuł angielski Intelligent multimodal human-computer interfaces

Konferencja The 2014 IEEE/WIC International Conference on Web Intelligence and Intelligent Agent Technology

Numer preprintu

Numer

Wolumin

Strony 8 - 11

Miejsce konferencji Warszawa, Polska

Data konferencji 11.8.2014- 14.8.2014

Uwagi Tutorial

Abstract Multimodal interfaces development history will be reviewed briefly in the introduction to the tutorial. Methods for intelligent processing of audio and video will be discussed in the context of their applications to multimodal human-computer interfaces. Some examples of applications of multimodal interfaces to education software and for the disabled people will be shown, including the eye-gaze tracking system named “Cyber Eye” employed to many kinds of experiments including analysis of visual activity of patients remaining in vegetative state and their awareness evaluation. The scent emitting multimodal computer interface, playing an essential role in education and therapy of children with certain developmental disorders will serve as one more practical example of applications. The multimodal interface called Virtual-Touchpad (VTP) used for supporting medical diagnosis will be presented also. The role of multimodal computer interfaces applied to learning, therapy and everyday usage of computerized devices will be illustrated by above mentioned and by some more practical examples. Moreover, the subject of intelligent audio & video surveillance providing a special case of multimodal interfacing will be addressed and illustrated with practical application examples.

Słowa kluczowe Cyber Eye, Virtual Touchpad, scent emitting interface

Projekt badawczy TYPOSZEREG

Pozycja nr 225

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Plewa, B. Kostek

Tytuł angielski Measurements and visualization of sound intensity around the human head using acoustic vector sensor

Konferencja 136th International AES Convention

Numer preprintu eBrief 154

Numer

Wolumin

Strony

Miejsce konferencji Berlin, Germany

Data konferencji 26.4.2014- 29.4.2014

Abstract Measurements and visualization of sound intensity around human head were presented in the paper. Sound intensity field was obtained by means of a Cartesian robot which was applied to precise positioning of the acoustic vector sensor. Measurements were performed in the free field using a head and torso simulator and a configuration of either one, two and four loudspeakers. The acoustic vector sensor was positioned around the head with 5 cm step. Sound intensity was measured in 277 points. During every step the three orthogonal sound intensity components were calculated. Tonal signals for frequencies: 250, 500, 1000, 2000, 4000 and 8000 Hz were applied. Obtained results were used to prepare visualizations of sound intensity distribution around the human head.

Słowa kluczowe Acoustic Vector Sensor, Human Head, Sound Intensity Measurements

Pozycja nr 226

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szczodrak, A. Czyżewski, J. Kotus, B. Kostek

Tytuł angielski Frequently updated noise threat maps created with use of supercomputing grid

Czasopismo Noise Mapping

Wolumin 1

Numer czasopisma

Strony 32 - 39

Rok 2014

Abstract An innovative supercomputing grid services devoted to noise threat evaluation were presented. The services described in this paper concern two different issues, first is the noise mapping, while the second concerns assessment of the noise dose and its influence on the human hearing system. The discussed services were developed within PL-Grid Infrastructure which accumulates Polish academic supercomputer centers. Selected experimental results achieved by usage of the services were presented. The assessment of environmental noise threats include creation of the noise maps using either offline or online data, acquired through a grid of monitoring stations. A concept of estimation of the source model parameters based on the measured sound level for the purpose of creating frequently updated noise maps was presented. Connection of the noise mapping grid service with a distributed sensor network enables to automatically update the noise maps for a specified time period. Moreover, an exceptional attribute of the developed software is the estimation of the auditory effects evoked by the exposure to noise. The estimation method uses a modified psychoacoustic model of hearing and is based on the calculated noise level values and on a given exposure period. Potential use scenarios of the grid services for research or educational purpose were introduced. Presentation of the results of predicted hearing threshold shift caused by exposure to excessive noise can disseminate awareness of the noise threat in public.

Słowa kluczowe noise, road noise, noise threat, supercomputer grid, noise dosimetry

Pozycja nr 227

Typ pozycji: referat konferencyjny

Autorzy B. Kunka, A. Korzeniewski, B. Kostek, A. Czyżewski

Tytuł angielski Eye-Gaze Tracking-Based Telepresence System for Videoconferencing

Tytuł polski System teleobecności oparty na technice śledzenia wzroku wykorzystywany w wideokonferencji

Konferencja The 2014 International Conference on Active Media Technology (AMT'2014)

Numer preprintu LNCS

Numer

Wolumin 8610

Strony 432 - 441

Miejsce konferencji Warszawa, Polska

Data konferencji 11.8.2014- 14.8.2014

Numer pozycji bibl. 23

Uwagi D. Ślȩzak et al. (Eds.): AMT 2014, LNCS 8610, pp. 432-441. Springer International Publishing Switzerland (2014)

Abstract An approach to the teleimmersive videoconferencing system enhanced by the pan-tilt-zoom (PTZ) camera, controlled by the eye-gaze tracking system, is presented in this paper. An overview of the existing telepresence systems, especially dedicated to videoconferencing is included. The presented approach is based on the CyberEye eye-gaze tracking system engineered at the Multimedia Systems Department (MSD) of Gdańsk University of Technology (GUT), as well as on a standard PTZ security camera communicating with the computer by the TCP/IP protocol. Technical aspects of the developed system prototype including two different use cases (one-way and two-way configuration of system) are described. Moreover, a discussion related to the gathered user’s experience as well as to difficulties and opportunities concerning the proposed approach are included.

Słowa kluczowe telepresence; active media applications; videoconferencing system; eye-gaze tracking; CyberEye

Projekt badawczy INDECT

Pozycja nr 228

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szczodrak, J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski The application of a noise mapping tool deployed in grid infrastructure for creating noise maps of urban areas

Czasopismo Computer Science

Wolumin 14

Numer czasopisma 2

Strony 231 - 242

Rok 2013

Abstract The concept and implementation of the system for creating dynamic noise maps in PL-Grid infrastructure are presented. The methodology of dynamic acoustical maps creating is introduced. The concept of noise mapping, based on noise source and propagation models, was developed and employed in the system. The details of incorporation of the system to the PL-Grid infrastructure are presented. The results of simulations performed by the system prototype are depicted. The results in the form of noise maps obtained by a system are compared with some other solutions in order to investigate accuracy.

Słowa kluczowe noise, noise map, noise modeling, grid computing

Pozycja nr 229

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek

Tytuł angielski Testing A Novel Gesture-Based Mixing Interface

Tytuł polski Badanie innowacyjnego interfejsu miksowania obsługiwanego za pomocą gestów

Czasopismo J. Audio Eng. Soc.

Wolumin 61

Numer czasopisma 5

Strony 301 - 313

Rok 2013

Uwagi TYPO zad 5.

Abstract In this article, a sound-mixing system controlled by hand gestures recognized in a video stream is presented. This novel approach to DAW (Digital Audio Workstation) controlling, was motivated by the limited ergonomics of the computer mouse and keyboard interface, as well as by the influence of audio information visualization on sound mixing. The article reviews existing approaches to gesture controlled audio, and presents the engineered system architecture and approach to gesture sonification. The methodology involved examining the system with the help of professional audio engineers in tests conducted to assess, among others, what influence the visualization of audio parameter values may have on mixing results. The results of a questionnaire and the subjective assessment of the obtained mixes have been given. The system efficiency and gesture recognition reliability have been assessed.

Słowa kluczowe hand, gesture, sound, mixing, audio, perception, vision, influence

Projekt badawczy TYPOSZEREG

Pozycja nr 230

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kunka, B. Kostek

Tytuł angielski New Aspects of Virtual Sound Source Localization Research—Impact of Visual Angle and 3-D Video Content on Sound Perception

Tytuł polski Nowe aspekty badawcze lokalizowania pozornego źródła dźwięku - wpływ kąta patrzenia i treści 3D na percepcję dźwięku

Czasopismo J. Audio Eng. Soc.

Wolumin 61

Numer czasopisma 5

Strony 280 - 289

Rok 2013

Numer pozycji bibl. 48

Uwagi Open Access, link: http://www.aes.org/e-lib/browse.cfm?elib=16824

Abstract The influence of image on virtual sound source localization, called the “image proximity effect” or the “ventriloquism effect”, is a well known phenomenon. This paper focuses on other aspects related to this effect, namely the impact of the visual angle of the presented object and 3D video content on sound perception. The research conducted confirmed that the visual angle of the presented object determines the image proximity effect regardless of the screen size. An interesting observation was made when studying the impact of 3D video on virtual sound source localization. When two objects are displayed in a 3D scene, the viewer’s attention is more attracted by the object which is closer to the viewer (negative parallax). Two eye-gaze tracking systems were exploited in the presented experiments to objectivize the obtained results.

Streszczenie Wpływ obrazu na percepcję położenia pozornego źródła dźwięku, nazywany "wpływem ściągającym" jest dobrze znanym zjawiskiem. Niniejszy artykuł koncentruje się na nowych aspektach związanych z tym efektem, a dokładniej na wpływie kąta patrzenia na wyświetlany na ekranie obiekt, jak również na wpływie obrazu trójwymiarowego na percepcję dźwięku. Przeprowadzone badania potwierdziły, że kąt patrzenia determinuje wpływ ściągający obrazu niezależnie od wielkości ekranu, na którym dany bodziec wzrokowy jest wyświetlany. Zaobserwowano również interesujące zjawisko podczas badania wpływu obrazu 3D na lokalizację pozornego źródła dźwięku. W przypadku dwóch obiektów wyświetlanych na scenie 3D uwaga widza jest bardziej przykuta do obiektu znajdującego się bliżej widza (przypadek paralaksy negatywnej w obrazowaniu stereoskopowym). W badaniach posłużono się dwoma systemami śledzenia punktu fiksacji wzroku w celu zobiektywizowania uzyskanych wyników.

Słowa kluczowe IMAGE PROXIMITY EFFECT, SOUND LOCALIZATION, VENTRILOQUISM EFFECT, VIRTUAL SOUND SOURCE LOCALIZATION

Projekt badawczy SYNAT

Pozycja nr 231

Typ pozycji: referat konferencyjny

Autorzy J. Cichowski, A. Czyżewski, B. Kostek

Tytuł angielski Visual Data Encryption for Privacy Enhancement in Surveillance Systems

Konferencja Advanced Concepts for Intelligent Vision Systems,

Numer preprintu

Numer

Wolumin 8192

Strony 13 - 24

Miejsce konferencji Poznań, Polska

Data konferencji 28.10.2013- 31.10.2013

Uwagi http://link.springer.com/chapter/10.1007/978-3-319-02895-8_2

Abstract In this paper a methodology for employing reversible visual encryption of data is proposed. The developed algorithms are focused on privacy enhancement in distributed surveillance architectures. First, motivation of the study performed and a short review of preexisting methods of privacy enhancement are presented. The algorithmic background, system architecture along with a solution for anonymization of sensitive regions of interest are described. An analysis of efficiency of the developed encryption approach with respect to visual stream resolution and the number of protected objects is performed. Experimental procedures related to stream processing on a single core, single node and multiple nodes of the supercomputer platform are also provided. The obtained results are presented and discussed. Moreover, possible future improvements of the methodology are suggested.

Słowa kluczowe CRYPTOGRAPHY, DATA SECURITY, INFORMATION SECURITY, MULTICORE PROCESSING, PRIVACY PROTECTION

Projekt badawczy ADDPRIV

Pozycja nr 232

Typ pozycji: książka

Autorzy B. Kostek

Tytuł angielski Music Information Retrieval in Music Repositories

Tytuł polski Wyszukiwanie muzyki w dużych repozytoriach muzycznych

Wydawca Intelligent Systems Reference Library, vol. 42, Springer Verlag, Berlin, Heidelberg

Strony 464 - 489

Rok 2013

Uwagi rozdział - Chapter 17, w książce "Rough Sets and Intelligent Systems - Professor Zdzisław Pawlak in Memoriam, (A. Skowron, Z. Suraj eds.)

Abstract This chapter reviews the key concepts associated with automated Music Information Retrieval (MIR). First, current research trends and system solutions in terms of music retrieval and music recommendation are discussed. Next, experiments performed on a constructed music database are presented. A proposal for music retrieval and annotation aided by gaze tracking is also discussed.

Streszczenie W rodziale zawarto obszerny przegląd z obszaru rozpoznawania utworów muzycznych, ze szczególnym uwzględnieniem społecznościowych systemów rekomendacji muzyki. W badanich zaproponowano nowa metodę anotacji muzyki z wykrzystaniem systemu śledzenia punktu fiksacji wzroku.

Słowa kluczowe rozpoznawanie muzyki, rekomendacja społecznościowa muzyki, systemy decyzyjne, system śledzenia punktu fiksacji wzroku

Projekt badawczy SYNAT

Pozycja nr 233

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, M. Plewa

Tytuł angielski Parametrization and Correlation Analysis Applied to Music Mood Classification

Tytuł polski Analiza korelacyjna w zastosowaniu do klasyfikacji nastroju związanego z utworem muzycznym

Czasopismo Int. J. Computational Intelligence Studies

Wolumin

Numer czasopisma

Strony

Rok 2013

Uwagi artykuł znajduje się na stronie: http://www.inderscience.com/info/ingeneral/forthcoming.php?jcode=ijcistudies

Abstract The paper presents a study on music mood categorization. First, a review of music mood models is presented. Then, the preparation of a set of music excerpts to be used in the experiments and music parametrization is described. Next, some listening tasks performed to obtain mood descriptors are introduced. Finally,the correlation between mood descriptors and features extracted from parameters is discussed. The paper concludes with some observations derived from the analysis performed.

Streszczenie W artykule opisano badania związane z klasyfikacją emocji przypisanych do utworów muzycznych. W pierwszej kolejności przedstawiono przygotowanie bazy muzycznej wykorzystywanej w eksperymentach oraz etap parametryzacji utowrów muzycznych. Następnie opisano założenia testów subiektywnych i ich wykonanie. Ostatnim etapem badań były poszukiwania korelacji pomiędzy opracowanym wektorem parametrów a wynikami testów subiektywnych, w których uzyskano etykiety związane z emocjami zawartymi w danym utworze, przypisane przez słuchaczy w testach odsłuchowych.

Słowa kluczowe wyszukiwanie informacji muzycznej, klasyfikacja emocji przypisanych do utworu muzycznego

Projekt badawczy SYNAT

Pozycja nr 234

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, J. Cichowski, A. Kupryjanow, B. Kostek

Tytuł angielski Online sound restoration system for digital library applications

Czasopismo J. Acoust. Soc. Amer.

Wolumin 134

Numer czasopisma 5

Strony

Rok 2013

Uwagi http://scitation.aip.org/content/asa/journal/jasa/134/5/10.1121/1.4830591

Abstract Audio signal processing algorithms were introduced to the new online non-commercial service for audio restoration intended to enhance the content of digitized audio repositories. Missing or distorted audio samples are predicted using neural networks and a specific implementation of the Jannsen interpolation method based on the autoregressive model (AR) combined with the iterative restoring of missing signal samples. Since the distortion prediction and compensations algorithms are computationally complex, an implementation which uses parallel computing has been proposed. Many archival recordings are at the same time clipped and affected by wideband noise. To restore those recordings, the algorithm based on the concatenation of signal clipping reduction and spectral expansion was proposed. The clipping reduction algorithm uses an intelligent interpolation to replace distorted samples with the predicted ones based on learning algorithms. Next, spectral expansion is performed in order to reduce the overall level of noise. The online service has been extended with some copyright protection mechanisms. Immunity of watermarks to the sound restoration is discussed with regards to low-level music feature vectors embedded as watermarks. Then, algorithmic issues pertaining watermarking techniques are briefly recalled. The architecture of the designed system together with the employed workflow for embedding and extracting the watermark are described. The implementation phase is presented and the experimental results are reported.

Słowa kluczowe Interpolation, Acoustic modeling, Acoustic noise, Acoustics, Archives, Artificial neural networks, Learning, Signal processing

Projekt badawczy SYNAT

Pozycja nr 235

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, A. Ciarkowski, B. Kostek, J. Cichowski

Tytuł angielski Online sound restoration system for digital library applications

Konferencja Proceedings of Meetings on Acoustics (Acoustical Society of America) POMA

Numer preprintu 055004

Numer 20

Wolumin

Strony 1 - 17

Miejsce konferencji San Francisco, USA

Data konferencji 2.12.2013- 6.12.2013

Uwagi http://scitation.aip.org/content/asa/journal/poma/20/1/10.1121/1.4863268

Abstract Audio signal processing algorithms were introduced to the new online non-commercial service for audio restoration intended to enhance the content of digitized audio repositories. Missing or distorted audio samples are predicted using neural networks and a specific implementation of the Jannsen interpolation method based on the autoregressive model (AR) combined with the iterative restoring of missing signal samples. Since the distortion prediction and compensations algorithms are computationally complex, an implementation which uses parallel computing has been proposed. Many archival recordings are at the same time clipped and affected by wideband noise. To restore those recordings, the algorithm based on the concatenation of signal clipping reduction and spectral expansion was proposed. The clipping reduction algorithm uses an intelligent interpolation to replace distorted samples with the predicted ones based on learning algorithms. Next, spectral expansion is performed in order to reduce the overall level of noise. The online service has been extended with some copyright protection mechanisms. Immunity of watermarks to the sound restoration is discussed with regards to low-level music feature vectors embedded as watermarks. Then, algorithmic issues pertaining watermarking techniques are briefly recalled. The architecture of the designed system is presented.

Słowa kluczowe Interpolation, Acoustic modeling, Acoustics, Archives, Artificial neural networks, Learning, Signal processing

Projekt badawczy SYNAT

Pozycja nr 236

Typ pozycji: referat konferencyjny

Autorzy A. Walkowiak, A. Lorens, M. Polak, B. Kostek, A. Obrycka, H. Skarżyński

Tytuł polski Pomiary obiektywne w doborze parametrów stymulacji u dzieci – użytkowników systemu implantu ślimakowego

Konferencja XVIII Krajowa Konferencja Biocybernetyki i Inzynierii Biomedycznej

Numer preprintu

Numer

Wolumin

Strony 1

Miejsce konferencji Gdańsk, PL

Data konferencji 10.10.2013- 12.10.2013

Uwagi współautorstwo pracowników Instytutu Fizjologii i Patologii Słuchu w Kajetanach

Abstract przedostatnim współautorem referatu jest Arkadiusz Wąsowski link do programu konferencji: http://domestic.gda.pl/KBiB-XVIII/index.php?id=program-konferencji

Streszczenie Powszechnie przyjmuje się, że pomiar elektrycznie wywołanego odruchu z mięśnia strzemiączkowego (ang. electrically evoked Stapedius Reflex Thresholds (eSRTs)) i elektrycznie wywołanego zespolonego potencjału czynnościowego nerwu słuchowego (electrically evoked Compound Action Potential (eCAP)) są pomocne w procesie doboru parametrów stymulacji przez implant ślimakowy. W wielu pracach pokazano korelację pomiędzy ustawieniami zrealizowanymi na podstawie badań psychoakustycznych, a tymi powstałymi na podstawie badań obiektywnych, takich jak eCAP i eSRT. Jednak większość prac przedstawia badania u użytkowników systemu Nucleus®. Dodatkowo w ostatnich latach powstały tzw. „metody ustawiania oparte o ładunek” i w literaturze brak jest doniesień o relacji pomiędzy zmierzonymi obiektywnie wartościami eCAP i eSRT a parametrami programu wyrażonymi ładunkowo. Aby tę lukę wypełnić przeprowadzono poniższe badania.

Słowa kluczowe implanty ślimakowe, elektrostymulacja ucha wewnętrznego,

Projekt badawczy DS

Pozycja nr 237

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł polski Współczesne metody diagnostyki zaburzeń i narażeń słuchu

Konferencja Krajowa Konferencja Biocybernetyki i Inzynierii Biomedycznej

Numer preprintu

Numer

Wolumin

Strony 1 - 1

Miejsce konferencji Gdańsk, PL

Data konferencji 10.10.2013- 12.10.2013

Uwagi referat plenarny; http://domestic.gda.pl/KBiB-XVIII/index.php?id=program-konferencji

Streszczenie W referacie przedstawiono zagadnienia związane z współczesnymi metodami diagnostyki słuchu. W szczególności dotyczą one możliwości prowadzenia badań słuchu wykorzystujących platformy mobilne, diagnostyki zaburzeń słuchu spowodowanych hałasem oraz zastosowania nowej metody syntezy dźwięku do pomiaru parametrów psychoakustycznych szumu usznego. W ostatnich latach obserwuje się bardzo intensywny rozwój technologii informacyjnych, aplikacji i usług informatycznych, również w obszarze diagnostyki medycznej. Dotyczy to przede wszystkim zastosowań w tej dziedzinie Internetu, łączności bezprzewodowej oraz komputerów i platform mobilnych. Możliwe stają się zatem nowe zastosowania technologii również w powszechnej diagnostyce słuchu i systemach monitorowania zagrożeń hałasem.

Słowa kluczowe metody diagnostyki słuchu, szumy uszne, technologie informacyjne, hałas, wpływ hałasu na człowieka

Projekt badawczy DS

Pozycja nr 238

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek

Tytuł polski Usługi przygotowane w ramach gridu dziedzinowego AKUSTYKA D.1

Konferencja Spotkanie Techniczne Projektu PLGrid Plus

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wisła, Polska

Data konferencji 23.10.2013- 25.10.2013

Uwagi Prezentacja multimedialna

Słowa kluczowe GRID SUPERKOMPUTEROWY; HAŁAS

Pozycja nr 239

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, T. Poremski

Tytuł angielski A new method for measuring the psychoacoustical properties of tinnitus

Tytuł polski Nowa metoda pomiaru własności psychoakustycznych szumów usznych u pacjenta

Czasopismo Diagnostic Pathology

Wolumin 8:209

Numer czasopisma

Strony

Rok 2013

Uwagi DS/Typoszereg; doi:10.1186/1746-1596-8-209 http://www.diagnosticpathology.org/content/8/1/209/abstract ;

Abstract Background This study investigates the usefulness and effectiveness of a new way of tinnitus screening and diagnosing. The authors believe that in order to arrive at relevant diagnostic information, select the tinnitus treatment and quantitatively substantiate its effects, the measurement of the Tinnitus psychoacoustic parameters should be made an inherent part of the Tinnitus therapy. Methods For this purpose the multimedia-based sound synthesizer has been proposed for testing tinnitus and the results obtained this way are compared with the outcome of the audiometer-based Wilcoxon test. The method has been verified with 14 patients suffering from tinnitus. Results The experiments reveal capabilities, limitations, advantages and disadvantages of both methods. The synthesizer enables the patient to estimate his/her tinnitus more than twice as fast as the audiometer and makes the information on the tinnitus character perception more accurate. The analysis of the Wilcoxon test results shows that there are statistically important differences between the two tests. Conclusions Patients using the synthesizer operate the software application themselves and thus get more involved in testing. Moreover, they do not concentrate on describing verbally their tinnitus, which could be difficult for some of them. As a result, the test outcome is closer to the perceived tinnitus. However, the more complex the description of the perceived tinnitus, the harder it is to determine the sound parameters of the patient's perception. It also takes more time regardless of the method.

Streszczenie W artykule przedstawiono znane metody badania i terapii szumów usznych. Zaprezentowano metodę własną, która łatwiej i skuteczniej pozwala na zbadanie cech szumów usznych pacjenta. Zbadano istotność statystyczną uzyskanych wyników, w tym celu posłużono się testem Wilcoxona.

Słowa kluczowe szumy uszne, badania charakterystyk psychoakustycznych szumów usznych, audiometria tonalna, synteza dźwięku, badanie istotności statystycznej wyników, test Wilcoxona

Projekt badawczy DS

Pozycja nr 240

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Cichowki, A. Kuryjanow, B. Kostek

Tytuł angielski Online sound restoration system for digital library applications

Tytuł polski Internetowy system rekonstrukcji dźwięku do zastosowań w bibliotekach cyfrowych

Konferencja 116th Meeting of Acoustical Society of America

Numer preprintu

Numer

Wolumin

Strony 1 - 17

Miejsce konferencji San Francisco, USA

Data konferencji 2.12.2013- 6.12.2013

Uwagi The Journal of the Acoustical Society of America vol. 134/5, p. 3999 (abstr.) plus Proceedings of Meetings of Acoustics vol. 20 http://scitation.aip.org/content/asa/journal/poma/20/1/10.1121/1.4863268

Abstract Audio signal processing algorithms were introduced to the new online non-commercial service for audio restoration intended to enhance the content of digitized audio repositories. Missing or distorted audio samples are predicted using neural networks and a specific implementation of the Jann- sen interpolation method based on the autoregressive model (AR) combined with the iterative restoring of missing signal samples. Since the distortion prediction and compensations algorithms are computationally complex, an implementation which uses parallel computing has been proposed. Many archival recordings are at the same time clipped and affected by wideband noise. To restore those recordings, the algorithm based on the concatenation of signal clipping reduction and spectral expansion was proposed. The clip- ping reduction algorithm uses an intelligent interpolation to replace dis- torted samples with the predicted ones based on learning algorithms. Next, spectral expansion is performed in order to reduce the overall level of noise. The online service has been extended with some copyright protection mechanisms. Immunity of watermarks to the sound restoration is discussed with regards to low-level music feature vectors embedded as watermarks. Then, algorithmic issues pertaining watermarking techniques are briefly recalled. The architecture of the designed system is presented.

Słowa kluczowe sound restoration; digital signal processing; online internet systems

Projekt badawczy SYNAT

Pozycja nr 241

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Cichowski, P. Czyżyk, B. Kostek, A. Czyżewski

Tytuł angielski Low-Level Music Feature Vectors Embedded as Watermarks

Czasopismo Intelligent Tools for Building a Scientific Information Platform

Wolumin 467

Numer czasopisma

Strony 453 - 473

Rok 2013

Uwagi http://link.springer.com/chapter/10.1007%2F978-3-642-35647-6_27

Abstract In this paper a method consisting in embedding low-level music feature vectors as watermarks into a musical signal is proposed. First, a review of some recent watermarking techniques and the main goals of development of digital watermarking research are provided. Then, a short overview of parameterization employed in the area of Music Information Retrieval is given. A methodology of non-blind watermarking applied to music-content description is presented. The system architecture for the embedding and recovery of the watermarks, along with the algorithms implemented, are described. The robustness of the watermark implemented is tested against audio file processing, such as re-sampling, filtration, time warping, cropping and lossy compression. Procedures for simulating musical signal alteration are explained with a focus on the influence of lossy compression on the degradation of the embedded watermark. The advantages and disadvantages of the proposed approach are discussed. An outline of future applications of the methodology introduced is also included.

Słowa kluczowe FEATURE VECTORS, LOSSY COMPRESSION, MUSIC INFORMATION RETRIEVAL, MUSIC PARAMETERIZATION, WATERMARKING TECHNIQUES

Projekt badawczy SYNAT

Pozycja nr 242

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, T. Ciszewski, D. Majewicz

Tytuł angielski Language material for English audiovisual speech recognition system developmen

Tytuł polski Materiał językowy do wykorzystania w systemie audiowizualnego rozpoznawania mowy angielskiej

Konferencja The Journal of the Acoustical Society of America vol. 134/5, p. 4069 (abstr.) plus Proceedings of Meetings on Acoustics

Numer preprintu

Numer 1

Wolumin 20

Strony 1 - 7

Miejsce konferencji San Francisco, USA

Data konferencji 2.12.2013- 6.12.2013

Uwagi online: http://scitation.aip.org/content/asa/journal/poma/20/1/10.1121/1.4864363

Abstract The bi-modal speech recognition system requires a 2-sample language input for training and for testing algorithms which precisely depicts natural English speech. For the purposes of the audio-visual recordings, a training data base of 264 sentences (1730 words without repetitions; 5685 sounds) has been created. The language sample reflects vowel and consonant frequencies in natural speech. The recording material reflects both the lexical word frequencies and casual speech sound frequencies in the BNC corpus of approx. 100m words. The semantically and syntactically congruent sentences mirror the 100m-word corpus frequencies. The absolute deviation from source sound frequencies is .09% and individual vowel deviation is reduced to a level between .0006% (min.) and .009% (max.). The absolute consonant deviation is .006% and oscillates between .00002% (min.) and .012% (max.). Similar convergence is achieved in the language sample for testing algorithms (29 sentences; 599 sounds). The post-recording analysis involves the examination of particular articulatory settings which aid visual recognition as well as co-articulatory processes which may affect the acoustic characteristics of individual sounds. Results of bi-modal speech elements recognition employing the language material are included in the paper.

Streszczenie System rozpoznawania mowy bimodalny wymaga bimodalnych próbek do trenowania i do testowania algorytmów w celu rozpoznawania naturalnej mowy w języku angielskim. Do celów nagrań audiowizualnych , bazy danych, treningu utworzono słownik 264 zdań (1730 słów bez powtórzeń ; 5685 dźwięków). Słownik odzwierciedla frekwentację spółgłosek i samogłosek w mowie potocznej. Zarejestrowany materiał odzwierciedla zarówno leksykalne frekwentacje haseł, jak i frekwentacje dźwięków mowy w korpusie BNC obejmującym ok 100 mln słów. Absolutne odchylenie od częstotliwości dźwięku źródłowych jest na poziomie 0,09 % a indywidualne odchylenie frekwentacji samogłosek jest zmniejszone do poziomu pomiędzy 0,0006 % (minimum ) i 0,009 % (max.) . Absolutne odchylenie spółgłosek jest 0,006 % i waha się od 0,00002 % (minimum ) do 0,012 % (max.). Podobną zbieżność uzyskuje się dla próbki testów językowych dla algorytmów ( 29 zdań; 599 dźwięków). Wyniki bi-modalnego rozpoznawania elementów mowy wykorzystującego opracowany materiał językowy są zawarte w referacie.

Słowa kluczowe rozpoznawanie mowy; analiza obrazu, fonetyka akustyczna

Pozycja nr 243

Typ pozycji: referat konferencyjny

Autorzy T. Poremski, J. Kotus, P. Odya, P. Suchomski, A. Czyżewski, B. Kostek

Tytuł angielski DETERMINATION OF SUBJECTIVE TINNITUS CHARACTERISTICS BY MEANS OF SOUND SYNTHESIS CONTROLLED BY THE TOUCH SCREEN INTERFACE

Tytuł polski Badanie psychoakustycznych charakterystyk szumów usznych

Konferencja ICAD 2013 - International Conference on Auditory Display

Numer preprintu

Numer

Wolumin

Strony 261 - 265

Miejsce konferencji Łodź, Polska

Data konferencji 6.7.2013- 10.7.2013

Uwagi http://www.icad2013.com/paper/33_S8-3_Poremski.pdf

Abstract Determination of Tinnitus (defined as a phantom auditory sensation) characteristics concerning sound type, level, bandwidth or frequency are one of the steps in the measurement protocol. A novel technique to measure Tinnitus parameters is proposed. It is based on a computer application designed as an auditory display for easier identification of the perceived Tinnitus. The proposed method utilizes sound synthesis employing a special graphical user interface to facilitate sound generation and identification. The method was verified during preliminary tests organized with participation of people suffering from Tinnitus and compared with the classical audiometry-based measurements. The obtained results are presented and discussed in the paper.

Streszczenie W pracy przedstawiono pokrótce problematykę szumów usznych. W szczególności skupiono się na pomiarach psychoakustycznych charakterystyk szumów usznych. W tym celu wykorzystano aplikację oparta na syntezie tonów i szumu wąskopasmowego.

Słowa kluczowe Tinnitus, szumy uszne,technika pomiaru charakterystyk psychoakustycznych szumów usznych, aplikacja do badań szumów usznych, środowisko wirtualnej wizualizacji dźwięku (Auditory Display, syntez dźwięku

Projekt badawczy TYPOSZEREG

Pozycja nr 244

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Plewa

Tytuł angielski Testing a Variety of Features for Music Mood Recognition

Tytuł polski Testowanie zestawu parametrów w celu rozpoznawania nastroju w muzyce

Konferencja 166th Meeting Acoustical Soc. of America

Numer preprintu

Numer 5

Wolumin 134

Strony 3994

Miejsce konferencji San Francisco, USA

Data konferencji 2.12.2013- 6.12.2013

Abstract Music collections are organized in a very different way depending on a target, number of songs or a distribution method, etc. One of the high-level feature, which can be useful and intuitive for listeners, is “mood”. Even if it seems to be the easiest way to describe music for people who are non-experts, it is very difficult to find the exact correlation between physical features and perceived impressions. The paper presents experiments aimed at testing a variety of low-level features dedicated to music mood recognition. Musical excerpts to be tested comprise individual (solo) tracks and mixes of these tracks. First FFT- and wavelet-based analyses, performed on musical excerpts, are shown. A set of “energy-based” parameters is then proposed. These are mainly rms coefficients normalized over the total energy derived from wavelet- based decomposed subbands, variance and some statistical moments. They are then incorporated into the feature vector describing music mood. Further part of experiments consists in testing to what extent these features are correlated to the given music mood. Results of the experiments are shown as well as the correlation analysis between two main mood dimensions – Valence and Arousal assigned to music excerpts during the subjective tests.

Streszczenie W referacie przedstawiono zestawy parametrów niskopoziomowych i przebadano je w kierunku skuteczności rozpoznawania nastroju zawartego z muzyce. W tym celu przeprowadzono eksperymenty, mające na celu powiązanie parametrów niskopoziomowych z wysokopoziomowymi poprzez zbadanie korelacji pomiędzy nimi.

Słowa kluczowe automatyczne rozpoznawanie nastroju w muzyce (Automatic mood recognition, parametryzacja niskopoziomowa, testy subiektywne, cechy subketywne: walencja i pobudzenie

Projekt badawczy SYNAT

Pozycja nr 245

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Rosner, F. Weninger, B. Schuller, M. Michalak, B. Kostek

Tytuł angielski In uence of Low-Level Features Extracted from Rhythmic and Harmonic Sections on Music Genre Classication

Tytuł polski Wpływ parametrów niskopoziomowych ekstrahowanych z sekcji rytmicznej na wynik rozpoznawania gatunku muzycznego

Czasopismo Adavances in Intelligent Systems and Computing 242

Wolumin

Numer czasopisma

Strony 466 - 473

Rok 2013

Uwagi Springer Verlag, Heidelberg, New York, Dordrecht, London, A. Gruca, T. Czachórski, S. Kozielski, eds.

Abstract We present a comprehensive evaluation of the infuence of 'harmonic' and rhythmic sections contained in an audio file on automatic music genre classication. The study is performed using the ISMIS database composed of music files, which are represented by vectors of acoustic parameters describing low-level music features. Non-negative Matrix Factorization serves for blind separation of instrument components. Rhythmic components are identied and separated from the rest of the audio signals. Using such separated streams, it is possible to obtain information on the infuence of rhythmic and harmonic components on music genre recognition. Further, the original audio feature vectors stemming from the non-separated signal are extended with such that base exclusively on drum and harmonic sections. The impact of these new parameters on music genre classification is investigated comparing the 'basic' k-Nearest Neighbor classfWier and Support Vector Machines.

Streszczenie W pracy zaproponowano separację ścieżek sekcji rytmicznej i instrumentów perkusyjnych w utworach muzycznych do wyznaczania unikatowych, dedykowanych do różnych gatunków muzycznych – parametrów w celu rozpoznawani gatunków muzycznych. W pracy przebadano wpływ separacji ścieżek rytmicznych o pozostałych, zawartych w utworach muzycznych na skuteczność klasyfikacji gatunków muzycznych. badania te były prowadzone z wykorzystaniem algorytmów kNN i SVM.

Słowa kluczowe rozpoznawanie muzyki, MIR (Music Information Retrieval), klasyfikacja gatunków muzycznych, separacja instrumentów muzycznych, kNN, SVM (Support Vector Machines)

Projekt badawczy SYNAT

Pozycja nr 246

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Rosner, M. Michalak, B. Kostek

Tytuł angielski A Study on Influence of Normalization Methods on Music Genre Classification Results Employing kNN Algorithms

Tytuł polski BADANIE WPŁYWU METOD NORMALIZACJI NA WYNIKI KLASYFIKACJI GATUNKÓW MUZYCZNYCH Z WYKORZYSTANIEM ALGORYTMU kNN

Czasopismo Studia Informatica

Wolumin 34

Numer czasopisma 2A(111)

Strony 411 - 423

Rok 2013

Abstract This paper presents a comparison of different normalization methods applied to the set of feature vectors of music pieces. Test results show the inﬂuence of min-nlax and Zero-Mean normalization methods, employing different distance functions (Euclidean, Manhattan, Chebyshev, Minkowski) as a pre-processing for genre classiﬁcation, on k-Nearest Neighbor (kNN) algorithm classification results.

Streszczenie Artykuł przedstawia porównanie różnych metod normalizacji zastosowanych do zbioru wektorów cech utworów muzycznych. Wyniki testów prezentują wpływ zastosowania metod normalizacji min-max oraz Zero-Mean z użyciem różnych funkcji odległości (Euklidesowej, Manhattan, Czebyszewa, Minkowskiego) w procesie wstępnego przetwarzania w klasyfikacji gatunków muzycznych z wykorzystaniem algorytmu klasyfikacji k-Najbliższych Sąsiadów (kNN).

Słowa kluczowe ekstrakcja informacji muzycznych, klasyfikacja gatunków muzycznych, normalizacja, przygotowanie danych, kNN

Projekt badawczy SYNAT

Pozycja nr 247

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski AUDITORY DISPLAY FROM THE MUSIC TECHNOLOGY PERSPECTIVE

Tytuł polski Obecność wirtualnego środowiska dźwiękowego w technologiach muzycznych

Konferencja The 19th International Conference on Auditory Display (ICAD-2013)

Numer preprintu

Numer

Wolumin

Strony 111 - 115

Miejsce konferencji Łódź, Polska

Data konferencji 6.7.2013- 10.7.2013

Uwagi referat plenarny, http://www.icad2013.com/paper/14_PL-II_Kostek.pdf

Abstract This paper presents some applications of Auditory Displays (AD) in the domain of music technology. First, the scope of music technology and auditory display areas are shortly outlined. Then, the research trends and system solutions within the fields of music technology, music information retrieval and music recommendation are discussed. Finally, an example of an auditory display that facilities music annotation process based on gaze tracking is shown.

Streszczenie W pracy zaprezentowano przykłady aplikacji muzycznych z obszaru wirtualnego środowiska dźwiękowego. Rozwiązania te dotyczą systemów rozpoznawania i rekomendacji muzyki, a w szczególności muzycznych systemów społecznościowych, wirtualnych instrumentów muzycznych oraz wykorzystania systemu śledzenia punktu fiksacji wzroku do automatycznej anotacji muzyki.

Słowa kluczowe wirtualne środowisko dźwiękowe (AD, Auditory Display, technologie muzyczne, rozpoznawanie muzyki, anotacja muzyki, muzyczne systemy społecznościowe, system śledzenia punktu fiksacji wzroku

Projekt badawczy SYNAT

Pozycja nr 248

Typ pozycji: referat konferencyjny

Autorzy T. Poremski, J. Kotus, P. Odya, P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski THE APPLICATION OF SOUND SYNTHESIS IN DETERMINING THE CHARACTERISTICS OF SUBJECTIVE TINNITUS

Tytuł polski ZASTOSOWANIE SYNTEZY DŹWIĘKU W OKREŚLANIU CECH CHARAKTERYSTYCZNYCH SUBIEKTYWNYCH SZUMÓW USZNYCH

Konferencja XV Międzynarodowe Sympozjum Inżynierii i Reżyserii Dźwięku, ISSET 2013

Numer preprintu

Numer

Wolumin

Strony 1 - 15

Miejsce konferencji Kraków,

Data konferencji 27.6.2013- 29.6.2013

Uwagi ISBN 987-83-921663-4-4

Streszczenie W niniejszym referacie przedstawiono wykorzystanie opracowanego Syntezatora dźwięku w pomiarach parametrów psychoakustycznych szumów usznych. W pierwszej kolejności przywołano definicję szumów usznych, zestaw procedur i testów stosowanych w ich ocenie, jak również kryteria służące do oceny szumów usznych. Następnie opisano Syntezator dźwięku opracowany w Katedrze Systemów Multimedialnych oraz zilustrowano przygotowany interfejs użytkownika. W ramach prowadzonych badań z osobami cierpiącymi na szumy uszne dokonano oceny skuteczności syntezatora, polegającej na porównaniu wyników uzyskanych przy jego użyciu oraz z wykorzystaniem audiometru klinicznego. Jako miarę do porównania przyjęto czas trwania badania oraz subiektywną ocena podobieństwa wzorca szumu do odczuwanego własnego szumu usznego. Z przeprowadzonych badań wynika, że zastosowanie Syntezatora skraca czas przeprowadzenia badania. Uzyskane w ten sposób wzorce szumu usznego są ponadto oceniane przez pacjentów jako bardziej podobne do odczuwanych szumów usznych.

Słowa kluczowe szumy uszne, pomiary psychoakustyczne, audiometria kliniczna, syntezator dźwięku, aplikacja komputerowa, interfejs użytkownika

Projekt badawczy TYPOSZEREG

Pozycja nr 249

Typ pozycji: książka

Autorzy T. Poremski, B. Kostek

Tytuł angielski APPLICATION OF THE HIGH FREQUENCY LINEARIZATION OF THE EAR IN PATIENTS WITH TINNITUS

Tytuł polski Metoda linearyzacji narządu słuchu u osób cierpiących z szumami usznymi

Wydawca Polish Academy of Sciences, Institute of Fundamental Technological Research, Collections of Acoustics and Ultrasound, Warsaw (J. Adamczyk, ed.)

Strony 163 - 184

Rok 2013

Uwagi Typoszereg/DS

Abstract This paper summarises the problem of tinnitus, hypotheses on its causes and the treatment methods. Moreover, a hypothesis on tinnitus origins is explained, based on the mechanisms of the analog-to-digital conversion and quantization. In addition, this paper describes methods of determining the acoustic intensity and spectra of low- level ultrasonic signals, as well as impedance characteristics of an ultrasound transducer. Furthermore, a findings from a study that involved patients with tinnitus, treated with the use of linearization mechanisms that apply low- level ultrasonic noise, are presented. The performed research showed that ultrasonic noise might be an effective method of diminishing the sensation of tinnitus in some patients. The paper also discusses the obtained results and provides conclusions.

Streszczenie W pracy przedstawiono problemów szumów usznych, przyczyny i metody terapii. Zaprezentowano hipotezę odnoszącą się do mechanizmu powstania szumów usznych. Rozdział ten zawiera metodykę pomiarów generatora ultradźwiękowego, stosowanego w terapii osób z szumami usznymi. W pracy zawarto również wyniki badań, w których uczestniczyły osoby z szumami usznymi.

Słowa kluczowe szumy uszne, pomiar charakterystyk słyszenia, linearyzacja narządu słuchu, technika dither, ultradźwięki

Projekt badawczy TYPOSZEREG

Pozycja nr 250

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, A. Kaczmarek

Tytuł angielski Music Recommendation Based on Multidimensional Description and Similarity Measures

Tytuł polski Rekomendacja muzyki na podstawie wielowymiarowego wektora cech i miar podobieństwa

Czasopismo Fundamenta Informaticae

Wolumin 127

Numer czasopisma 1-4

Strony 325 - 340

Rok 2013

Uwagi http://iospress.metapress.com/content/n748l61453432132/?issue=1&genre=article&spage=325&issn=0169-2968&volume=127

Abstract This study aims to create an algorithm for assessing the degree to which songs belong to genres defined a priori. Such an algorithm is not aimed at providing unambiguous classification-labelling of songs, but at producing a multidimensional description encompassing all of the defined genres. The algorithm utilized data derived from the most relevant examples belonging to a particular genre of music. For this condition to be met, data must be appropriately selected. It is based on the fuzzy logic principles, which will be addressed further. The paper describes all steps of experiments along with examples of analyses and results obtained.

Streszczenie Opracowanie to ma na celu stworzenie algorytmu oceny stopnia, w jakim utwory należą do gatunków określonych a priori. Taki algorytm nie ma na celu zapewnienie jednoznacznej klasyfikacji typu etykietowanie utworów, ale utworzenie wielowymiarowego opisu obejmującego wszystkie zdefiniowane gatunki muzyczne. Algorytm wykorzystuje dane uzyskane na podstawie reprezentatywnych przykładów należących do danego gatunku muzyki. Dla spełnienia tego warunku, dane muszą być odpowiednio dobrane. Algorytm jest oparty na zasadach logiki rozmytej. Artykuł opisuje wszystkie etapy eksperymentów wraz z przykładami analiz i uzyskanych wyników.

Słowa kluczowe wyszukiwanie muzyki, parametryzacja muzyki, klasyfikacja gatunków muzycznych, inteligentne systemy decyzyjne

Projekt badawczy SYNAT

Pozycja nr 251

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek, A. Czyżewski

Tytuł angielski Examining Classifiers Applied to Static Hand Gesture Recognition in Novel Sound Mixing System

Czasopismo Multimedia and Internet Systems: Theory and Practice; Advances in Intelligent Systems and Computing

Wolumin 183

Numer czasopisma

Strony 77 - 86

Rok 2013

Uwagi Springer Berlin Heidelberg

Abstract The main objective of the paper is to present the methodology and results of examining various classifiers (Nearest Neighbor-like algorithm with non-nested generalization (NNge), Naive Bayes, C4.5 (J48), Random Tree, Random Forests, Artificial Neural Networks (Multilayer Perceptron), Support Vector Machine (SVM) used for static gesture recognition. A problem of effective gesture recognition is outlined in the context of the system based on a camera and a mul-timedia projector enabling a user to process sound in audio mixing domain by hand gestures. The image processing method and hand shape parameterization method are described in relation to the specificity of the input and data classifiers. The SVM classifier is considered the optimum choice for the engineered gesture-based sound mixing system.

Słowa kluczowe static gesture recognition, sound mixing, SVM

Projekt badawczy TYPOSZEREG

Pozycja nr 252

Typ pozycji: referat konferencyjny

Autorzy M. Plewa, B. Kostek

Tytuł angielski Multidimensional Scaling Analysis Applied to Music Mood Recognition

Tytuł polski Zastosowanie skalowania wielowymiarowego (MDS) w dziedzinie rozpoznawania nastroju muzyki

Konferencja 134 Audio Engineering Society Convention

Numer preprintu 8876

Numer

Wolumin

Strony

Miejsce konferencji Rzym, Włochy

Data konferencji 4.5.2013- 7.5.2013

Abstract The paper presents two experiments aimed at categorizing mood associated with music. Two parts of a listening test were designed and carried out with a group of students, most of whom where users of online social music services. The initial experiment was designed to evaluate the extent to which a given label describes the mood of the particular music excerpt. The second subjective test was conducted to collect the similarity data for the MDS (Multidimensional Scaling) analysis. Results were subject of various MDS and correlation analysis. Obtained MDS representation is relevant and remains coherent with acclaimed 2-dimensional Thayer’s model as well as with evaluation using six mood labels.

Streszczenie W niniejszej pracy przedstawione zostały dwa eksperymenty mające na celu kategoryzację muzyki ze względu na jej nastrój. W obu eksperymentach wzięli udział studenci, którzy są na co dzień użytkownikami internetowych portali muzycznych. W pierwsyzm eksperymecie słuchacze oceniali w jakim stopniu każde z danych 6 etykiet opisuje nastrój muzyki. Drugi eksperyment miał na celu określenie podobieństwa pomiędzy fragmentami ze względu na nastój muzyki. Zgromadzone w ten sposób dane posłużyły do skalowania wielowymiarowego (Multidimensional Scaling). Uzyskane wyniki zostały poddane MDS oraz analizie korelacyjnej. Usyzkane wyniki są spójne z powszechnie uznanym dwywymiarowym modelem Thayer jak również z opisem nastroju muzyki za pomocą 6 etykiet.

Słowa kluczowe MDS, Multidimensional Scaling, Music, Mood, Emotion, MIR, Music Information Retrieval

Projekt badawczy SYNAT

Pozycja nr 253

Typ pozycji: referat konferencyjny

Autorzy M. Szczodrak, J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski Creating dynamic maps of noise threat using pl-grid infrastructure

Konferencja Noise Control 2013

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Ryn, Polska

Data konferencji 26.5.2013- 29.5.2013

Abstract This paper presents functionality and operation results of the system for creating dynamic maps of noise thread with the use of the PL-Grid infrastructure integrated with distributed sensors network for measuring, modeling and rendering noise level distribution. The work presented provides a demonstration of the services being prepared within the PLGrid Plus project. Specific computational environments, so called domain grids, are developed in the mentioned project. For particular domain grids, specialized IT solutions are prepared, i.e. dedicated software implementation, and hardware (infrastructure adaptation), suited for particular researchers’ groups demands, including acoustics (domain grid “Acoustics”). The infrastructure and the software developed can be utilized mainly for research and education purposes. The engineered software is intended for creating maps of noise threat for road, railways and industrial sources. Integration of the software service with distributed sensor network enables to automatically update noise maps for a specific time period. The unique feature of the developed software is a possibility to estimate auditory effects which are caused by the exposure to noise. The estimation of auditory effects is based on calculated noise levels and on a given exposure period. The outcomes of this research study are presented in a form of the cumulative noise dose and characteristics of the temporary threshold shift.

Słowa kluczowe Noise, dynamic noise map, reverse engineering, grid computing

Pozycja nr 254

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Hoffmann, P. Spaleniak, A. Kaczmarek

Tytuł polski Wyszukiwarka nagrań muzycznych - Serwis muzyczny Synat

Czasopismo Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Wolumin

Numer czasopisma 8-9

Strony

Rok 2013

Numer pozycji bibl. 25

Uwagi artykuł na płycie CD

Streszczenie W pracy przedstawiono opracowany w ramach projektu Synat serwis klasyfikacji nagrań muzycznych, a także pro-blemy i rozwiązania systemowe zrealizowane w celu zapew-nienia większej skuteczności wyszukiwania treści muzycz-nych. W ramach eksperymentów przeprowadzono testy skuteczności klasyfikacji gatunków muzycznych na pod-stawie obliczonych wektorów parametrów z wykorzysta-niem algorytmów decyzyjnych. W pracy zawarto szczegó-łowe wyniki testów, analizy oraz podano wnioski i rozwią-zania wspomagające automatyczne rozpoznawanie gatun-ków muzycznych w przypadku obszernych baz muzycz-nych, skonstruowanych za pomocą robotów muzycznych.

Słowa kluczowe KLASYFIKACJA, PARAMETRYZACJA, SYNAT, WYSZUKIWARKA, KNN, LOGIKA ROZMYTA, MPEG7

Projekt badawczy SYNAT

Pozycja nr 255

Typ pozycji: raport

Autorzy J. Kotus, M. Szczodrak, B. Kostek, A. Czyżewski

Tytuł angielski Acoustics - new services for urban planning, research and education

Numer raportu

Rok 2013

Uwagi http://www.plgrid.pl/projekty/plus/materialy_promocyjne/broszury/pliki/Broszura_Acoustics_PLGridPlus

Abstract The main purpose of the presented design is twofold, namely: providing detailed information about the noise threats that occur every day in city areas and preventing the noise induced hearing loss especially among young people. An experimental system designed for the continuous monitoring of the acoustic climate of urban areas was developed and implemented within the PLGrid Plus project. The assessment of environmental threats is performed based on online data, acquired through a grid of engineered monitoring stations, employing some selected psychoacoustic properties of the human hearing system. Another aim is to make available efficient computational tools for the community of acousticians engaged in the noise threat combating.

Pozycja nr 256

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Editor’s Note

Tytuł polski List od Edytora

Czasopismo J. Audio Eng. Soc.

Wolumin 61

Numer czasopisma

Strony 4

Rok 2013

Abstract In this article an organizational schedule of journal workflow management is presented. The role of Associate Technical Editors is shown, and the importance to find adequate reviewers for a given submitted manuscript is pointed out.

Streszczenie W liście od Edytora przedstawiono schemat procesu recenzji i edycji artykułów zgłaszanych do czasopisma J. of the Audio Eng. Soc. W procesie tym istotna jest rola edytorów technicznych, dziedzinowych, którzy następnie przypisują recenzentów do zgłoszonego artykułu z danego obszaru.

Słowa kluczowe Zarządzanie czasopismem, proces recenzji i edycji artykułów

Projekt badawczy DS

Pozycja nr 257

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szczodrak, J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski Creating Dynamic Maps of Noise Threat Using PL-Grid Infrastructure

Czasopismo Archives of Acoustics

Wolumin 38

Numer czasopisma 2

Strony 235 - 242

Rok 2013

Abstract The paper presents functionality and operation results of a system for creating dynamic maps of acoustic noise employing the PL-Grid infrastructure extended with a distributed sensor network. The work presented provides a demonstration of the services being prepared within the PLGrid Plus project for measuring, modeling and rendering data related to noise level distribution in city agglomerations. Specific computational environments, the so-called domain grids, are developed in the mentioned project. For particular domain grids, specialized IT solutions are prepared, i.e. software implementation and hardware (infrastructure adaptation), dedicated for particular researcher groups demands, including acoustics (the domain grid “Acoustics”). The infrastructure and the software developed can be utilized mainly for research and education purposes, however it can also help in urban planning. The engineered software is intended for creating maps of noise threat for road, railways and industrial sources. Integration of the software services with the distributed sensor network enables automatic updating noise maps for a specific time period. The unique feature of the developed software is a possibility of evaluating auditory effects which are caused by the exposure to excessive noise. The estimation of auditory effects is based on calculated noise levels in a given exposure period. The outcomes of this research study are presented in a form of the cumulative noise dose and the characteristics of the temporary threshold shift.

Słowa kluczowe noise, dynamic noise map, reverse engineering, grid computing

Pozycja nr 258

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, J. Cichowski, A. Czyżewski

Tytuł angielski Testing Watermark Robustness against Application of Audio Restoration Algorithms

Konferencja 135th International Audio Engineering Society Convention

Numer preprintu 126

Numer

Wolumin

Strony

Miejsce konferencji New York, USA

Data konferencji 17.10.2013- 20.10.2013

Uwagi http://www.aes.org/e-lib/browse.cfm?elib=16961

Abstract The purpose of this study was to test to what extent watermarks embedded in distorted audio signals are immune to audio restoration algorithm performing. Several restoration routines such as noise reduction, spectrum expansion, clipping or clicks reduction were applied in the online website system. The online service was extended with some copyright protection mechanisms proposed by the authors. They contain low-level music features embedded as watermarks using the non-blind approach. After applying restoration algorithms, the watermark is extracted from the audio track. It was shown in experiments, that a watermark “attacked” by the restoration procedures may still be detected. However in some cases it is possible to retrieve only a binary information about the watermark presence in the audio carrier.

Projekt badawczy SYNAT

Pozycja nr 259

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek

Tytuł angielski Gesture-controlled Sound Mixing System With a Sonified Interface

Tytuł polski System Miksowania Dźwięku z Interfejsem Obsługiwanym za Pomocą Gestów

Konferencja The 19th International Conference on Auditory Display

Numer preprintu

Numer

Wolumin

Strony 137 - 148

Miejsce konferencji Łódź, Polska

Data konferencji 6.7.2013- 10.7.2013

Abstract In this paper the Authors present a novel approach to sound mixing. It is materialized in a system that enables to mix sound with hand gestures recognized in a video stream. The system has been developed in such a way that mixing operations can be performed both with or without visual support. To check the hypothesis that the mixing process needs only an auditory display, the influence of audio information visualization on sound mixing and the ergonomics of the system usage in comparison to a mouse and keyboard interface are tested and the results of this study are presented.

Streszczenie W referacie przedstawiono innowacyjne podejście do miksowania dźwięku przejawiające się w systemie umożliwiającym miksowanie dźwięku za pomocą gestów rąk rozpoznawanych w strumieniu wizyjnym. System został opracowany w taki sposób, że operacje miksowania mogą być przeprowadzane ze wsparciem wizyjnym lub bez niego. W referacie sprawdzono wpływ wizualizacji informacji dźwiękowej na proces miksowania oraz ergonomię systemu w porównaniu z interfejsem myszy i klawiatury.

Słowa kluczowe miksowanie dźwięku, rozpoznawanie gestów, percepcja

Projekt badawczy DS

Pozycja nr 260

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Cichowski, A. Czyżewski, B. Kostek

Tytuł angielski Analysis of impact of audio modifications on the robustness of watermark for non-blind architecture

Czasopismo MULTIMEDIA TOOLS AND APPLICATIONS

Wolumin

Numer czasopisma

Strony 1 - 21

Rok 2013

Uwagi http://link.springer.com/article/10.1007%2Fs11042-013-1636-0

Abstract The aim of this paper is to assess the robustness of the non-blind audio content watermarking scheme proposed by the authors. The authors present the architecture of the designed system along with the employed workflows for embedding and extracting the watermark followed by the implementation phase description and the analysis of the experimental results. Some possible attack simulations on the embedded watermarks are reviewed, and the robustness of the proposed approach is evaluated in the context of the influence of lossy compression on the watermark degradation. Subjective and objective analyses are performed for the algorithm proposed by the authors and compared with the Audio Watermarking Tools (AWT) encoder. Finally, the advantages and drawbacks of the proposed approach are debated followed by the conclusion section outlining possible improvements to the proposed method.

Słowa kluczowe DISCRETE WAVELET TRANSFORM, LOSSY COMPRESSION, NON-BLIND AUDIO WATERMARKING, QUALITY

Projekt badawczy SYNAT

Pozycja nr 261

Typ pozycji: książka

Autorzy B. Kostek, A. Kupryjanow

Tytuł polski WYKORZYSTANIE SIECI NEURONOWYCH I METODY WEKTORÓW NOŚNYCH SVM W PROCESIE ROZPOZNAWANIA AKTYWNOŚCI RUCHOWEJ PACJENTÓW DOTKNIĘTYCH CHOROBĄ PARKINSONA

Wydawca SIECI NEURONOWE W ZASTOSOWANIACH BIOMEDYCZNYCH

Strony 285 - 308

Rok 2013

Numer pozycji bibl. 36

Uwagi w druku

Streszczenie Choroba Parkinsona (ang. PD - Parkinson Disease) zaliczana jest do grupy chorób neurodegeneracyjnych. Jest to powoli postępująca choroba zwyrodnieniowa ośrodkowego układu nerwowego. Jej powstawanie związane jest z zaburzeniem produkcji dopaminy przez komórki nerwowe mózgu. Choroba manifestuje się zaburzeniami ruchowymi. Przyczyna występowania tego typu zaburzeń nie została do końca wyjaśniona. Leczenie osób dotkniętych PD oparte jest głównie na minimalizowaniu wpływu symptomów choroby.

Słowa kluczowe Choroba Parkinsona, rozpoznawanie aktywności ruchowych, akcelermoetry

Projekt badawczy TYPOSZEREG

Pozycja nr 262

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, M. Szczodrak, B. Kostek

Tytuł angielski System for creating maps of noise threatening hearing with grid computing on supercomputing platforms

Tytuł polski System do tworzenia map zagrożeń hałasem z zastosowaniem obliczeń gridowych na platformach superkomputerowych

Konferencja VI Międzynarodowa Warszawska Wystawa Wynalazków IWIS 2012

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 16.10.2012- 19.10.2012

Abstract Engineered system allows for obtaining level and influence on hearing of environmental noise in urban areas. The outcome is presented in dedicated website. Moreover developed solutions can provide a base for scientific research. Grid computing allows for obtaining free of charge access (given as a grant) to the computational resources, therefore researchers interested in the problem can conduct own experiments without need of purchasing specialized software.

Streszczenie Opracowany system pozwala na określenie poziomu oraz wpływu na słuch hałasu występującego w środowisku aglomeracji miejskich. Wyniki przedstawiane są poprzez serwis internetowy. Ponadto opracowane rozwiązania mogą służyć prowadzeniu eksperymentów badawczych. Zastosowanie obliczeń gridowych, umożliwiających bezpłatny dostęp do zasobów na podstawie grantów, pozwala na wykonywanie symulacji przez badaczy, bez konieczności zakupu specjalistycznego oprogramowania.

Słowa kluczowe hałas, mapa hałasu, obliczenia gridowe

Pozycja nr 263

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, Ł. Kosikowski, B. Kostek, J. Kotus, P. Suchomski

Tytuł angielski New Tools for Hearing Loss Screening and Tinnitus Diagnosing

Konferencja AES 47th international conference

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Chicago, USA

Data konferencji 20.6.2012- 22.6.2012

Uwagi Dostępne w materiałach konferencyjnych - pamięć usb

Abstract A theoretical model of Tinnitus (ringing in ears) based on the existence of a parasitic quantization, that accompanies hearing loss has been formulated in the previous work presented at the 120th AES Convention, linking hearing loss, dithering and Tinnitus. Accurate estimation of the Tinnitus characteristic concerning sound type, level, bandwidth or frequency is inevitable for many treatment methods. The proposed way of obtaining Tinnitus characteristic is described in the paper, preceded by a description of developed applications for screening hearing testing.

Streszczenie W publikacji zaproponowano sposób uzyskania charakterystyki szumów usznych oraz opis opracowanych aplikacji służących do przesiewowego badania słuchu.

Słowa kluczowe Tinitus, szumy uszne, badanie słuchu, słuch

Projekt badawczy TYPOSZEREG

Pozycja nr 264

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek, A. Czyżewski

Tytuł angielski Virtual Whiteboard: A gesture-controlled pen-free tool emulating school whiteboard

Czasopismo Intelligent Decision Technologies

Wolumin 6

Numer czasopisma 2/2012

Strony 161 - 169

Rok 2012

Abstract In the paper the so-called Virtual Whiteboard is presented which may be an alternative solution for modern electronic whiteboards based on electronic pens and sensors. The presented tool enables the user to write, draw and handle whiteboard contents using his/her hands only. An additional equipment such as infrared diodes, infrared cameras or cyber gloves is not needed. The user’s interaction with the Virtual Whiteboard computer application is based on dynamic hand gesture recognition. Gestures are recognized in the process of analyzing video stream obtained from a webcam coupled with a multimedia projector displaying whiteboard contents. The tracking positions of hands in the image is supported by Kalman filtering. In the paper the hardware and software of the Virtual Whiteboard is presented with a special focus on utilizing Kalman filters for prediction of consecutive hand positions. For the gestures applied to handle whiteboard contents, examined efficacy of Kalman filter supported recognition and the efficacy without using the filtering is given. In addition, the results of system efficiency tests are provided.

Projekt badawczy TYPOSZEREG

Pozycja nr 265

Typ pozycji: artykuł w czasopiśmie

Autorzy K. Kaszuba, B. Kostek

Tytuł angielski Brain-computer interaction based on EEG signal and gaze-tracking information

Tytuł polski Analiza interackji mózg-komputer wykorzystująca sygnał EEg i informacje z systemu śledzenia punktu fiksacji wzroku

Czasopismo Elektronika

Wolumin

Numer czasopisma 5

Strony 21 - 26

Rok 2012

Abstract The article presents an attempt to integrate EEG signal analysis with information about human visual activities, i.e. gaze fixation point. The results from gaze-tracking-based measurement were combined with the standard EEG analysis. A search for correlation between the brain activity and the region of the screen observed by the user was performed. The preliminary stage of the study consists in electrooculography (EOG) signal processing. The EOG signal was obtained in a series of experiments and served as reference data. An attempt to correlate this information with the EEG signal analysis is described and multiple approaches of signal pre-processing, feature extraction and classification are applied.

Streszczenie W niniejszym artykule podjęto próbę analizy sygnału EEG z informacją o aktywności wzrokowej człowieka w kontekście interfejsów mózg-komputer. Wykorzystano funkcjonalności rejestratora sygnału EEG oraz systemu śledzenia punktu fiksacji wzroku. Poszukiwana była korelacja pomiędzy obserwowanym obszarem ekranu a aktywnością mózgu. Sygnał EOG, nagrany w trakcie serii wstępnych eksperymentów, posłużył jako dane referencyjne. Zbadano możliwość automatycznej detekcji podobnej informacji w sygnale EEG poprzez zastosowanie różnych metod wstępnego przetwarzania, ekstrakcji cech sygnału oraz zastosowaniu różnych klasyfikatorów.

Słowa kluczowe EEG, gaze-tracking, EOG, brain, cyber-eye

Projekt badawczy TYPOSZEREG

Pozycja nr 266

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek

Tytuł angielski Hand gesture recognition supported by fuzzy rules and Kalman filters

Tytuł polski Rozpoznawanie gestów rąk wspomagane regułami rozmytymi i filtrami Kalmana

Czasopismo Int. J. Intelligent Information and Database Systems

Wolumin 6

Numer czasopisma 5

Strony 407 - 420

Rok 2012

Abstract The paper presents a system based on camera and multimedia projector enabling a user to control computer applications by dynamic hand gestures. Gesture recognition methodology based on representing hand movement trajectory by motion vectors analysed using fuzzy rule-based inference is first given. For effective hand position tracking Kalman filters are employed. The system engineered is developed using J2SE and C++/OpenCV technology. In addition, OpenCV is used for image processing and J2SE with jFuzzyLogic package is employed for gesture interpretation. Results of fuzzy rule-based and fixed threshold-based gesture recognition effectiveness are provided. Additionally, for fuzzy rule-based gesture recognition the system efficacy after utilising Kalman filters is examined. The so-called interactive whiteboard application is given as an example of the system usage.

Streszczenie W artykule zaprezentowano system oparty na kamerze i projektorze multimedialnym umożliwiający użytkownikowi sterowanie aplikacjami komputerowymi za pomocą dynamicznych gestów rąk. Na początku przedstawiono metodologię polegającą na reprezentowaniu trajektorii ruchu rąk za pomocą wektorów analizowanych w oparciu wnioskowanie rozmyte. W celu efektywnego śledzenia pozycji rąk zastosowano filtry Kalmana. System wytworzono w oparciu o technologię J2SE i C++/OpenCV. Bilbioteka OpenCV została zastosowana do przetwarzania obrazu, a platforma J2SE z pakietem jFuzzyLogic do interpretacji gestów. W artykule przedstawiono wyniki skuteczności rozpoznawania gestów w oparciu o wnioskowanie rozmyte i ostre progi podjęcia decyzji. Dodatkowo, dla reguł rozmytych zbadano skuteczność systemu po zastosowaniu filtracji Kalmana. Jako przykład zastosowania systemu przedstawiono aplikację Wirtualna tablica.

Słowa kluczowe rozpoznawanie gestów, filtr kalmana, logika rozmyta, J2SE, C++, OpenCV, Wirtualna Tablica

Projekt badawczy TYPOSZEREG

Pozycja nr 267

Typ pozycji: referat konferencyjny

Autorzy M. Plewa, B. Kostek

Tytuł angielski A Study on Correlation Between Tempo and Mood of Music

Tytuł polski Analiza korelacyjna parametrów rytmicznych z etykietami opisującymi nastrój utworu muzycznego

Konferencja 133 Audio Engineering Society Convention

Numer preprintu 8800

Numer

Wolumin

Strony

Miejsce konferencji San Francisco, USA

Data konferencji 26.11.2012- 29.11.2012

Uwagi referat recenzowany

Abstract In this paper, a study is carried out to identify a relationship between mood description and combinations of various tempos and rhythms. First, a short review of music recommendation systems along with music mood recognition studies is presented. In addition, some details on tempo and rhythm perception and detection are included. Then, the experiment layout is explained in which a song is first recorded and then its rhythm and tempo are changed. This constitutes the basis for a mood tagging test. Six labels are chosen for mood description. The results show a significant dependence between the tempo and mood of the music.

Streszczenie W referacie przedstawiono badania, których celem było poszukiwanie korelacji pomiędzy parametrami związanymi z cechami czasowymi utworu muzycznego a etykietami, opisującymi nastrój danego utworu. W pierwszej kolejności dokonano przeglądu literatury w zakresie systemów rekomendacji muzyki opartych na emmocjach związanych z utworem muzycznym. Podano również metody analizy percpcji cech czasowych (tempa i rytmu). Następnie przeprowadzono testy, w których zadaniem słuchaczy było przypisanie etykiet opisujących nastrój. Analiza wyników wskazała na duży związake cech rytmicznych utworu z nadanymi etykietami.

Słowa kluczowe wyszukiwanie informacji muzycznej, tempo, ekstrakcja cech związnych z tempem utworu muzycznego

Projekt badawczy SYNAT

Pozycja nr 268

Typ pozycji: referat konferencyjny

Autorzy M. Plewa, B. Kostek

Tytuł angielski Creating Mood Dictionary Associated with Music

Tytuł polski Przygotowanie słownika etykiet związanych z nastrojem zawartym w utworze muzycznym

Konferencja 132 Audio Engineering Society Convention

Numer preprintu 8607

Numer

Wolumin

Strony

Miejsce konferencji Budapeszt, Węgry

Data konferencji 26.4.2012- 29.4.2012

Uwagi referat recenzowany

Abstract The paper presents an attempt to create a dictionary of words related to mood associated with music. Two parts of a listening test were designed and carried out with a group of students, most of them users of social music online services. The audience task was to propose adjectives well-describing music tracks. These words were given in Polish and then compared to their English equivalents. The obtained results show that terms associated with music are language-specific and in addition there is a need to use multi-label mood description.

Streszczenie Celem referatu było stworzeni słownika pojęć związanych z nastrojem zawartym w utworze muzycznym. Przedstawiono dwa testy subiektywne, w których zadaniem słuchaczy było podanie etykiet odpowiadających opisowi nastroju zawartego w utworze muzycznym. Następnie porównano te etykiety z ich odpowiednikami w języku angielskim.

Słowa kluczowe wyszukiwanie informacji muzycznej, klasyfikacja emocji przypisanych do utworu muzycznego, słownik eteykiet związanych z nastrojem zawartym w utworze muzycznym

Projekt badawczy SYNAT

Pozycja nr 269

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, K. Kaszuba, P. Zwan, P. Robowski, J. Slawek

Tytuł angielski Automatic assessment of the motor state of the Parkinson's disease patient

Tytuł polski Automatyczna ocena stanu choroby u osób cierpiących na chorobę Parkinsona

Czasopismo Diagnostic Pathology

Wolumin 7

Numer czasopisma 18

Strony

Rok 2012

Numer pozycji bibl. 10.1186/17

Abstract This paper presents a novel methodology in which the Unified Parkinson's Disease Rating Scale (UPDRS) data processed with a rule-based decision algorithm is used to predict the state of the Parkinson's Disease patients. The research was carried out to investigate whether the advancement of the Parkinson's Disease can be automatically assessed. For this purpose, past and current UPDRS data from 47 subjects were examined. The results show that, among other classifiers, the rough set-based decision algorithm turned out to be most suitable for such automatic assessment.

Streszczenie Niniejszy artykuł prezentuje nowatorskie podejście, w którym dane z ankiet w Ujednoliconej Skali Oceny Choroby Parkinsona są przetwarzane przez algorytm zbiorów przybliżonych, dla oceny stanu postępowania choroby. Celem eksperymentu jest zbadanie czy możliwa jest automatyczna ocena postępów choroby. W tym celu badane są dane z ankiet wykonanych na bieżąco podczas wizyt pacjenta z ankietami z poprzednich wizyt. Przebadanych zostało 47 pacjentów. Wyniki wskazują na to,że wśród innych klasyfikatorów skuteczność klasyfikacji metodą zbiorów przybliżonych jest najlepsza.

Projekt badawczy TYPOSZEREG

Pozycja nr 270

Typ pozycji: referat konferencyjny

Autorzy P. Spaleniak, B. Kostek

Tytuł angielski Automatic Analysis System of TV Commercial Emission Level

Tytuł polski System automatycznej analizy poziomu emisji reklam nadawanych w TV

Konferencja NTAV/SPA 2012

Numer preprintu

Numer

Wolumin

Strony 65 - 70

Miejsce konferencji Łódź, Polska

Data konferencji 27.9.2012- 29.9.2012

Abstract The purpose of the study was to determine whether the commercial emission level is higher than the emission level of a regular program and to check if the commercials broadcasters follow the recommended levels of loudness. The paper shortly reviews some chosen methods of volume measurements specified in the ITU and EBU recommendations. Then, it describes a prototype of a system implemented in Embarcadero C++ Builder 2010 which carries out automatic evaluation of loudness using the recordings acquired from TV programs.

Streszczenie Niniejszy referat przywołuje problem poziomu emisji reklam telewizyjnych. W pierwszej kolejności przedstawiono przegląd wybranych metod analizy poziomu nadawanych sygnałów wizyjno-fonicznych oraz zalecenia normowe dotyczące emisji programów. Opisany został również opracowany system, pozwalający na automatyczną analizę poziomu emitowanych reklam. W eksperymentach wykorzystano przygotowaną bazę nagrań programów telewizyjnych. W referacie zawarto także wyniki przeprowadzonych testów.

Słowa kluczowe Loudness normalization, Commercial detection

Projekt badawczy DS

Pozycja nr 271

Typ pozycji: referat konferencyjny

Autorzy P. Spaleniak, B. Kostek

Tytuł angielski System for automatic analysis of the audio level of broadcast TV advertising

Tytuł polski System automatycznej analizy poziomu emisji reklam nadawanych w TV

Konferencja 27'th Tonmeistertagung 2012

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kolonia, Niemcy

Data konferencji 22.11.2012- 25.11.2012

Abstract The purpose of the study was to determine whether the level of commercial emission is higher than the level of regular program and to check if the commer-cial broadcasters follow the recommended levels of loudness. The paper shortly reviews some chosen methods of volume measurements specified in the ITU and EBU recommendations. Then, it describes a prototype of a system implemented in Embarcadero C++ Builder 2010 which carries out automatic evaluation of loudness using the recordings acquired directly from TV programs. In the end, the results of the measurements obtained for TV commercials are shown, and the conclusions are drawn. The final Section outlines also future work being planned.

Streszczenie Niniejszy referat przywołuje problem poziomu emisji reklam telewizyjnych. W pierwszej kolejności przedstawiono przegląd wybranych metod analizy poziomu nadawanych sygnałów wizyjno-fonicznych oraz zalecenia normowe dotyczące emisji programów. Opisany został również opracowany system, pozwalający na automatyczną analizę poziomu emitowanych reklam. W eksperymentach wykorzystano przygotowaną bazę nagrań programów telewizyjnych. W referacie zawarto także wyniki przeprowadzonych testów.

Słowa kluczowe Loudness normalization, Commercial detection

Projekt badawczy DS

Pozycja nr 272

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, M. Szczodrak, B. Kostek

Tytuł angielski Employing Supercomputing Cluster to Acoustic Noise Map Creation

Tytuł polski Zastosowanie gridu superkomputerowego do tworzenia map hałasu

Konferencja Audio Engineering Society Convention 133

Numer preprintu 8775

Numer

Wolumin

Strony 1 - 7

Miejsce konferencji San Francisco, Stany Zjednoczone Ameryki

Data konferencji 26.10.2012- 29.10.2012

Abstract A system is presented for determining acoustic noise distribution and assessing its adverse effects in short time periods inside large urban areas owing to the employment of a supercomputing cluster. A unique feature of the system is the psychoacoustic noise dosimetry implemented to inform interested citizens about predicted auditory fatigue effects which may be caused by the exposure to excessive noise. The noise level computing is based on the engineered Noise Prediction Model (NPM) stemmed from the Harmonoise model. Sound level distribution in the urban area can be viewed by users over the prepared www service. An example of a map is presented in consecutive time periods to show the capability of the supercomputing cluster to update noise level maps frequently.

Streszczenie W referacie przedstawiono system do wyznaczania rozkładu poziomu hałasu i określanie jego niekorzystnego wpływu w krótkich okresach czasu w dużych obszarach miejskich z zastosowaniem klastrów superkomputerowych. Unikalną właściwością systemu jest psychoakustyczna dozymetria hałasowa zaimplementowana w celu dostarczenia informacji zainteresowanym mieszkańcom o przewidywanych efektach zmęczenia słuchu, które mogą być spowodowane przez ekspozycję na nadmierny hałas. Obliczanie poziomu hałasu bazuje na opracowanym Modelu Prognozowania Hałasu (MPH) wzorowanego na modelu Harmonoise. Rozkład poziomu dźwięku w obszarze aglomeracji może być obserwowany przez użytkowników poprzez przygotowaną stronę www. Zaprezentowano przykład mapy hałasu w różnych okresach doby w celu pokazania możliwości klastrów superkomputerowych do częstego odświeżania map poziomu hałasu.

Słowa kluczowe hałas, mapy hałasu, grid superkomputerowy

Pozycja nr 273

Typ pozycji: artykuł w czasopiśmie

Autorzy T. Poremski, B. Kostek

Tytuł angielski Tinnitus Therapy Based on High-Frequency Linearization Principles - Preliminary Results

Tytuł polski Terapia szumów usznych z zastosowaniem linearyzacji ultradźwiękowej

Czasopismo Archives of Acoustics

Wolumin 37

Numer czasopisma 2

Strony 161 - 170

Rok 2012

Uwagi częściowo w projekcie Typoszereg

Abstract The aim of this work is to present problems related to tinnitus symptoms, its pathogenesis, hypotheses on tinnitus causes, and therapy treatment to reduce or mask the phantom noise. In addition, the hypothesis on the existence of parasitic quantization that accompanies hearing loss has been recalled. Moreover, the paper describes a study carried out by the Authors with the application of high-frequency dither having specially formed spectral characteristics. Discussion on preliminary results obtained and conclusions are also contained.

Streszczenie W pracy przedstawiono problemy szumów usznych, ich patogenezę, hipotezy dotyczące przyczyny występowania szumów usznych oraz stosowane metody terapii. Dodatkowo przywołano jedną z teorii powstawania szumów usznych opartej na mechanizmie działania układów kwantyzacji. W dalszej kolejności zawarto opis przeprowadzonych badań wykorzystujących mechanizm linearyzacji ultradźwiękowej, przedstawiono dyskusję uzyskanych wyników oraz wnioski.

Słowa kluczowe audiologia, szumy uszne, pomiar słuchu, ubytek słuchu,mechanizm linearyzacji ultradźwiękowej

Projekt badawczy TYPOSZEREG

Pozycja nr 274

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek

Tytuł angielski Distributed System For Noise Threat Evaluation Based On Psychoacoustic Measurements

Tytuł polski Rozproszony system do ewaluacji zagrożeń hałasem bazujący na pomiarach psychoakustycznych

Czasopismo Metrology And Measurement Systems

Wolumin XIX

Numer czasopisma 2

Strony 219 - 230

Rok 2012

Abstract An innovative system designed for the continuous monitoring of acoustic climate of urban areas was presented in the paper. The assessment of environmental threats is performed using online data, acquired through a grid of engineered monitoring stations collecting comprehensive information about acoustic climate of urban areas. The grid of proposed devices provides valuable data for the purpose of long and short time acoustic climate analysis. Dynamic estimation of noise source parameters and real measurement results of emission data are utilized to create dynamic noise maps accessible to the general public. This operation is performed through the noise source prediction employing a propagation model being optimized for a computer cluster implementation requirements. It enables the system to generate noise maps in a reasonable time and to publish regularly map updates in the Internet. Moreover, the functionality of the system was extended with new techniques for assessing noise-induced harmful effects on the human hearing system. The principle of working of the dosimeter is based on a modified psychoacoustic model of hearing and on the results of research performed with participation of volunteers concerning the impact of noise on hearing. The primary function of the dosimeter is to estimate, in real time, auditory effects which are caused by exposure to noise. The results of measurements and simulations performed by the system prototype are depicted and analyzed. Several cases of long-term and short-term measurements of noise originating from various sources were considered in details. Presented outcomes of predicted degree of the hearing threshold shift induced during the noise exposure can increase awareness of harmfulness of excessive sound levels.

Streszczenie W artykule przedstawiono innowacyjny system do ciągłego monitorowania klimatu akustycznego w obszarach miejskich. Szacowanie zagrożeń środowiskowych jest wykonywane z użyciem danych zbieranych w czasie rzeczywistym z użyciem sieci opracowanych stacji monitorujących, pozyskujących kompletne dane o klimacie akustycznym w obszarze miejskim. Sieć proponowanych urządzeń dostarcza cennych danych do celów długo- i krótkookresowej analizy klimatu akustycznego. Dynamiczne oszacowanie parametrów źródła hałasu oraz wyniki pomiarów są używane do tworzenia dynamicznych map hałasu dostępnych publicznie. Ta operacja jest przeprowadzana z zastosowaniem modeli źródła i propagacji hałasu zoptymalizowanych do działania na klastrze komputerowym. W ten sposób system umożliwia tworzenie map hałasu w akceptowalnym czasie i publikowanie regularnie uaktualnianych map w Internecie. Dodatkowo, funkcjonalność systemu została rozszerzona o nowe techniki określania szkodliwych efektów dla słuchu wywołanych przez hałas. Zasada działania dozymetru jest oparta o zmodyfikowany model psychoakustyczny słuchu i na wynikach badań przeprowadzonych z udziałem ochotników dotyczących wpływu hałasu na słuch. Podstawową funkcją dozymetru jest szacowanie w czasie rzeczywistym efektów słuchowych, które spowodowane są ekspozycją na hałas. Wyniki pomiarów i symulacji przeprowadzonych za pomocą prototypu systemu są przedstawione i przedyskutowane. Prezentowane wyniki przewidywanego stopnia podniesienia progu słyszenia wywołanego przez narażenie na hałas mogą przyczynić się do wzrostu świadomości o szkodliwości nadmiernych poziomów dźwięku.

Słowa kluczowe hałas, hałas środowiskowy, model psychoakustyczny, pomiary

Pozycja nr 275

Typ pozycji: referat konferencyjny

Autorzy M. Szczodrak, J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski Application of Grid Infrastructure to Noise Map Calculation of Large City Areas

Tytuł polski Zastosowanie infrastruktury gridowej do obliczania map hałasu dużych obszarów miejskich

Konferencja Cracow Grid Workshop 2012

Numer preprintu

Numer

Wolumin

Strony 2

Miejsce konferencji Kraków, Polska

Data konferencji 22.10.2012- 24.10.2012

Abstract Concept and implementation of the system for creating dynamic noise maps in PlGrid infrastructure are presented. The methodology of dynamic acoustical maps creating is introduced. The concept of noise mapping, based on noise source and propagation models, was developed and employed in the system. The details of incorporation of the system to the PlGrid infrastructure are presented. The results of simulations performed by the system prototype are depicted. The results in form of noise maps obtained by system are compared with some other solutions in order to investigate accuracy.

Streszczenie W referacie przedstawiono koncepcję i implementację systemu do tworzenia dynamicznych map hałasu w infrastrukturze PLGrid. Omówiono metodologię tworzenia map akustycznych odświeżanych dynamicznie. Zastosowano i zaimplementowano w systemie metodę bazującą na koncepcji zastosowania modeli źródła i propagacji dźwięku. Przedstawiono szczegółowe informacje o zintegrowaniu systemu z infrastrukturą PLGrid. Pokazano wyniki symulacji przeprowadzonych za pomocą systemu. Wyniki w postaci map hałasu są porównane z otrzymanymi za pomocą innych narzędzi w celu zbadania dokładności opracowanego systemu.

Słowa kluczowe obliczenia gridowe, model hałasu, mapa hałasu

Pozycja nr 276

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, J. Kotus, A. Czyżewski

Tytuł angielski Noise Monitoring System Employing Psychoacoustic Noise Dosimetry

Tytuł polski System monitorowania hałasu wykorzystujący psychoakustyczny dozymetr hałasowy

Konferencja AES 47th International Conference

Numer preprintu 13

Numer

Wolumin

Strony 1 - 12

Miejsce konferencji Chicago, Stany Zjednoczone Ameryki

Data konferencji 20.6.2012- 22.6.2012

Abstract New ways of assessing noise-induced harmful effects on human hearing system were presented at the 126th AES Convention. They resulted from a long-term study allowing authors to define new indicators that were proposed on the basis of hearing examination done in the real noise exposure situations. However, it seems now that the topic was raised prematurely at that time (in 2009), because it did not entail any discussion on this matter in the AES community. Meanwhile, the authors continued their work on this subject. Consequently, the mentioned new ideas were disseminated in some following papers and an advanced distributed noise monitoring system was implemented employing the conceived psychoacoustic noise dosimetry. The proposed noise exposure indicators are reviewed in the present paper. The practical applicability of the proposed indicators were confirmed experimentally using hearing testing with real noise exposures and also on the basis of simulation results employing some standard test signals.

Słowa kluczowe hałas, dozymetria hałasowa

Pozycja nr 277

Typ pozycji: referat konferencyjny

Autorzy P. Czyżyk, J. Cichowski, B. Kostek, A. Czyżewski

Tytuł angielski Analysis of impact of lossy audio compression on the robustness of watermark embedded in the DWT domain for non-blind copyright protection

Tytuł polski Analiza wpływu stratnej kompresji dźwięku na odporność znaku wodnego osadzonego w dziedzinie DWT w celu ochrony praw autorskich typu non-blind

Konferencja 5th International Conference on Multimedia Communications, Services and Security, MCSS'12

Numer preprintu

Numer

Wolumin

Strony 36 - 46

Miejsce konferencji Kraków, Polska

Data konferencji 31.5.2012- 1.6.2012

Numer pozycji bibl. 4

Uwagi Communications in Computer and Information Science 287

Abstract A methodology of non-blind watermarking of the audio content is proposed. The outline of audio copyright problem and motivation for practical applications are discussed. The algorithmic theory pertaining watermarking techniques is briefly introduced. The system architecture together with employed workflows for embedding and extracting the watermarks are described. The implemented approach is described and obtained results are reported. The possible attacks on the embedded watermark are described and the procedure of simulating the attacks is explained. The research is focused on the influence of lossy compression on the embedded watermark degradation. The peak signal to noise ratio and bit error rate are analyzed and compared. Advantages and disadvantages of the proposed approach are discussed. Future work and some possible improvements to the introduced methodology are explained.

Streszczenie Zaproponowana metodologia związana jest ze znakowaniem wodnym materiału fonicznego typu non-blind. Przedyskutowano problem ochrony praw autorskich nagrań fonicznych oraz motywację do praktycznego zastosowania proponowanej metody. Przedstawiono podstawy teoretyczne dotyczące technik znakowania wodnego. Zaprezentowano architekturę systemu wraz z przepływem danych wykorzystywanych do realizacji procedur osadzania i ekstrakcji znaków wodnych. Wyniki rzeczywistej implementacji systemu zostały opisane. Hipotetyczne ataki skierowane na znak wodny zostały zaprezentowane, wyjaśniono procedury symulacji ataków. Przeprowadzone badania skoncentrowane zostały pod kątem analizy wpływu stratnej kompresji dźwięku na degradację osadzonego znaku wodnego. Stosunek sygnału do szumu oraz bitowa stopa błędów zostały użyte do porównania otrzymanych wyników. Zalety i wady proponowanego podejścia zostały omówione. Przyszłe prace oraz możliwe usprawnienia wprowadzonej metodologii zostały wyjaśnione.

Słowa kluczowe znakowanie wodne non-blind, dyskretna transformat falkowa

Projekt badawczy SYNAT

Pozycja nr 278

Typ pozycji: książka

Autorzy A. Czyżewski, A. Kupryjanow, B. Kostek

Tytuł angielski Online Sound Restoration for Digital Library Applications

Tytuł polski Sieciowa rekonstrukcja dźwięku przeznaczona dla cyfrowych bibliotek

Wydawca Springer-Verlag

Strony 227 - 242

Rok 2012

Numer pozycji bibl. 29

Uwagi rozdział w książce

Abstract A system for sound restoration having the following features was conceived and engineered: no special sound restoration software is needed to perform audio restoration; the process of online restoration employs automatic reduction of noise, wow and impulse distortions; no skills in digital signal processing are required from the user. The principles of the created system and its features as well as hitherto achieved results are discussed in the paper.

Streszczenie W referacie przedstawiono system rekonstrukcji dźwięku posiadający następujące własności: nie wymaga specjalistycznego oprogramowania służącego do rekonstrukcji sygnałów fonicznych; proces sieciowej rekonstrukcji dźwięku pozwala na automatyczne usunięcie z nagrań dźwiękowych szerokopasmowego szumu, zniekształceń impulsowych oraz drżenia i kołysania dźwięku; użytkownicy systemu nie muszą posiadać wiedzy związanej z cyfrowym przetwarzaniem sygnałów. W referacie przedstawiono zasadę działania systemu jego funkcjonalność oraz dotychczas osiągnięte wyniki.

Słowa kluczowe automatyczna rekonstrukcja dźwięku, redukcja szumu, drżenie i kołysanie dźwięku, redukcja trzasków

Projekt badawczy SYNAT

Pozycja nr 279

Typ pozycji: referat konferencyjny

Autorzy K. Przyłucka, B. Kostek, A. Czyzewski

Tytuł angielski Testing audio restoration algorithms

Konferencja 27th Tonmeistertagung – VDT International Convention

Numer preprintu

Numer

Wolumin

Strony 1 - 10

Miejsce konferencji Kolonia, Niemcy

Data konferencji 22.11.2012- 25.11.2012

Abstract Nowadays audio material stored on analog carriers is being increasingly digitized. It often is corrupted by distortions, e.g. impulse, white noise, or clipping. There are many methods to reduce these types of distortion. The aim of this paper is to provide guidelines for making automatic decisions about the sequence of specific procedures that will bring the best results in terms of audio restoration. Moreover, an optimization process based on informal listening tests is performed to determine the best restoration algorithm settings. For this purpose restoration algorithms are developed and implemented at the Multimedia Systems Department of Gdansk University of Technology. They are shortly recalled in the paper. Test procedures, and the description of the reconstructed excerpts and results of tests are presented in the paper.

Streszczenie Celem badań było przeprowadzenie testów subiektywnych, mających na celu efektywność opracowanych algorytmów rekonstrukcji nagrań fonicznych. W referacie przedstawiono pokrótce algorytmy rekonstrukcji nagrań fonicznych, a następnie wyniki testów odsłuchowych. Zawarto wnioski dotyczace rozwoju prowadzonych badań.

Słowa kluczowe rekonstrukcja nagrań, sygnał foniczny, algorytmy, testy odsłuchowe

Projekt badawczy SYNAT

Pozycja nr 280

Typ pozycji: patent

Autorzy A. Czyżewski, B. Kostek, R. Rybacki

Tytuł angielski The Manner of Ranging Items on the Computer Monitor Screen Surface, Especially Keywords for the Requirements of WEB Browsers Users

Tytuł polski Sposób wartościowania obiektów na powierzchni ekranu monitora komputerowego, zwłaszcza słów-kluczy dla potrzeb użytkowników przeglądarki internetowej

Numer patentu 13/136,235

Data zgłoszenia 2012

Uwagi zgłoszenie patentowe w USA do zgł. nr P. 395764 w Polsce

Słowa kluczowe rangowanie dokumentów multimodalnych, śledzenie punktu fikasacji wzroku

Projekt badawczy SYNAT

Pozycja nr 281

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, M. Szczodrak, B. Kostek

Tytuł angielski System for creating maps of noise threatening hearing with grid computing on supercomputing platforms

Tytuł polski System do tworzenia map zagrożeń hałasem z zastosowaniem obliczeń gridowych na platformach superkomputerowych

Konferencja 61 Brussels Innova 2012

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Bruksela, Belgia

Data konferencji 15.11.2012- 17.11.2012

Abstract Doveloped system allows determination of noise level and noise impact on hearing in metropolian environments. Results are visualized in the form of noise map and the map of permanet threshold shift in people exposed to noise. Based on the emission model of noise sources (rail, road) and sound propagation algorithms immission noise maps for given area are generated. Generated noise maps are presented via Internet website, hence the target audience is practically unlimited. The use of grid computing, allowing free of charge access to computing resources, subject to grants awarded, allows researchers to develop their own simulations without the need for purchasing specialised software.

Streszczenie Opracowany system pozwala na określenie poziomu oraz wpływu na słuch hałasu występującego w środowisku aglomeracji miejskich. Wynik przedstawiany jest w postaci mapy hałasu oraz mapy przesunięcia progu słyszenia człowieka narażonego na hałas. W oparciu o emisyjny model źródła hałasu (drogowego, kolejowego) oraz algorytmy propagacji dźwięku w środowisku wyznaczane są immisyjne mapy hałasu dla danego obszaru. Prezentacja przygotowanych map hałasu jest realizowana poprzez serwis internetowy, dzięki czemu grono odbiorców jest praktycznie nieograniczone. Obok możliwości wykorzystania dynamicznie odświeżanych map hałasu przez mieszkańców, administrację, służby ochrony środowiska, służby odpowiedzialne za monitorowanie ruchu drogowego - opracowane rozwiązania mogą służyć prowadzeniu eksperymentów badawczych. Zastosowanie obliczeń gridowych, umożliwiających bezpłatny dostęp na zasobów obliczeniowych na podstawie przyznawanych grantów, umożliwia wykonanie własnych symulacji przez zainteresowanych badaczy, bez konieczności zakupu specjalistycznego oprogramowania.

Słowa kluczowe hałas, słuch, dynamiczne mapy hałasu

Pozycja nr 282

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kunka, B. Kostek

Tytuł angielski Objectivization of Audio-Visual Correlation analysis

Tytuł polski Obiektywizacja wyników badań korelacji słuchowo-wzrokowych

Czasopismo Archives of Acoustics

Wolumin 37

Numer czasopisma 1

Strony 63 - 72

Rok 2012

Numer pozycji bibl. 38

Uwagi DOI: 10.2478/v10168-012-0009-4

Abstract Simultaneous perception of audio and visual stimuli often causes the concealment or misrepresentation of information actually contained in these stimuli. Such effects are called the "image proximity effect" or the "ventriloquism effect" in literature. Until recently, most research carried out to understand their nature was based on subjective assessments. The Authors of this paper propose a methodology based on both subjective and objectively retrieved data. In this methodology, objective data reflect what screen areas attract most attention. The data were collected and processed by the eye-gaze tracking system. To justify the proposed methodology, two series of experiments were conducted – one with a commercial eye-gaze tracking system Tobii T60, and another with the Cyber-Eye system developed at the Multimedia Systems Department of the Gdansk University of Technology. In most cases, the visual-auditory stimuli were presented using 3D video. It was found that the eye-gaze tracking system did objectivize the results of experiments. Moreover, the tests revealed a strong correlation between the localization of a visual stimulus on which a participant’s gaze focused and the value of the “image proximity effect”. It was also proved that gaze tracking may be useful in experiments which aim at the evaluation of the proximity effect when the presented visual stimuli is stereoscopic.

Streszczenie Jednoczesna percepcja bodźców słuchowych i wzrokowych często powoduje ukrycie lub przekłamanie informacji zawartych w tych bodźcach. Efekt ten w literaturze nazywany jest wpływem ściągającym obrazu na percepcję dźwięku. Do niedawna większość badań prowadzonych w celu wyjaśnienia natury tego zjawiska była oparta na testach subiektywnych. Autorzy niniejszego artykułu zaproponowali metodologią opartą na analizie danych subiektywnych i obiektywnych. W metodzie tej dane obiektywne odzwierciedlają uwagę wzrokową widza. Informacja o położeniu wzroku osoby badanej była zapisywana i przetwarzana przez system śledzenia punktu fiksacji wzroku. W celu potwierdzenia wyników badań zostały przeprowadzone dwie serie eksperymentów - z komercyjnym systemem Tobii T60 oraz z systemem Cyber-Oko, opracowanym w Katedrze Systemów Multimedialnych Politechniki Gdańskiej. Większość materiału badawczego była prezentowana w technologii 3D. W wyniku przeprowadzonych badań wykazano, że system śledzenia punktu fiksacji wzroku wspiera obiektywizację uzyskanych wyników. Ponadto, wykazano silną zależność pomiędzy położeniem bodźca wzrokowego w obrazie a obserwowanym wpływem ściągającym obrazu na percepcję dźwięku. Udowodniono również, że system śledzenia wzroku może być stosowany w eksperymentach, których celem jest oszacowanie wpływu ściągającego w przypadku prezentacji bodźca wzrokowego w technice stereoskopowej.

Słowa kluczowe sound perception, sound source localization, virtual sound source shifting, bi-modal perception, cross-modal perception, image proximity effect, ventriloquism effect, visual attention, perceptual illusion, eye-gaze tracking

Projekt badawczy SYNAT

Pozycja nr 283

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, A. Czyżewski, B. Kostek, M. Szczodrak, H. Skarżyński

Tytuł angielski Creating maps of noise threatening hearing with supercomputing grids

Tytuł polski Tworzenie map zagrożeń hałasem z zastosowaniem klastrów obliczeniowych

Konferencja Otwarcie Światowego Centrum Słuchu

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 10.5.2012- 11.5.2012

Uwagi Prezentacja plakatowa

Streszczenie Na plakacie przedstawiono przykładowe wyniki symulacji wpływu hałasu na słuch podczas koncertu plenerowego uzyskane za pomocą opracowanego w Katedrze Systemów Multimedialnych systemu do tworzenia map zagrożeń hałasem z zastosowaniem klastrów obliczeniowych.

Słowa kluczowe Hałas, słuch, superkomputer

Pozycja nr 284

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski EDITOR’S NOTE

Tytuł polski List od Czytelników czasopisma JAES

Czasopismo J. Audio Eng. Soc.

Wolumin 60

Numer czasopisma 10

Strony 767

Rok 2012

Abstract The first initiative we started was the publication of two special issues. One of them was dedicated to Perceptual Quality of Systems (PQS), and aimed for a better understanding of sound quality and its perception. The other was devoted to Auditory Display, which is a multidisciplinary field encompassing the use of sound to display data, monitor processes, and support human interactions with systems and devices including augmented and virtual reality systems. These two special issues started a new path in JAES publications.

Streszczenie W Liście do Czytelników przywołano dwa wydania specjalne poświęcone tematyce perceptualnej jakości systemów(Perceptual Quality of Systems (PQS)) oraz systemom niewizualnej prezentacji obrazów otoczenia (Auditory Display). Stanowią one cykl wydań specjalnych przygotowywanych dwa razy do roku.

Słowa kluczowe Jakość systemów, testy subiektywne, prezentacja obrazów otoczenia za pomocą informacji niewizualnych

Pozycja nr 285

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Editor’s Farewell

Tytuł polski List do Czytelników Archives of Acoustics

Czasopismo Archives of Acoustics

Wolumin 37

Numer czasopisma 1

Strony 3

Rok 2012

Abstract By this occasion, I would like to mention the major milestones Archives of Acoustics experienced during the last years. For some years, we concentrated our efforts on introducing Archives of Acoustics to the ISI Web of Knowledge and the Journal Citation Report databases.We achieved this aim, and since 2007 Archive of Acoustics has been referenced in the Journal Citation Report. Accordingly, our next object was to obtain the Impact Factor, an important indicator of any journal’s quality, and then to increase it. The IF for the year 2010 is 0.504, and we hope to raise it to approximately 0.8 for 2011. According to the new policy on journals, we are now publishing Archives of Acoustics as an Open Access journal, though the printed version is still available. This means that we are now more widely read and cited.

Streszczenie W Liście do czytelników przywołano osiągnięcia dotyczace wprowadzenia czasopismo Archives of Acoustics na tzw. Listę Filadelfijską i osiągnięty wskaźnik Impact Factor. Ponadto czasopismo ma charakter typu Open Access, co przyczyniło się do wzrostu popularności Archives of Acoustics.

Słowa kluczowe czasopismo otwarte (Open Access), wskaźnik Impact Factor

Pozycja nr 286

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek, A. Czyżewski

Tytuł angielski Recognition of Dynamic and Static Hand Gestures Applied to Computer Application Controlling

Tytuł polski Rozpoznawanie dynamicznych i statycznych gestów rąk w zastosowaniu do sterowania aplikacjami komputerowymi

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin 1

Numer czasopisma 10

Strony 177 - 186

Rok 2011

Uwagi Seria: Wytwarzanie Gier Komputerowych.

Abstract In the paper an interface, methods and algorithms of controlling a computer by dynamic and static hand gestures have been presented. The solution consists of a PC on which engineered software is installed, a webcam and a multimedia projector. Gestures are recognized based on analysis of a video stream obtained from the webcam attached to the multimedia projector and on analysis of video stream displayed by the projector (retrieved from the computer). For the purpose of dynamic gestures recognition motion trajectory has been modeled by fuzzy rules. Static gestures are recognized using Support Vector Machines. In the paper results of efficiency examination of the interface engineered have been given. In conclusions, further plans to extend the system with algorithms enabling to work with the camera placed front-faced have been presented.

Streszczenie W referacie przedstawiono interfejs, metody oraz algorytmy sterowania komputerem za pomocą dynamicznych i statycznych gestów rąk. Komponentami opracowanego rozwiązania są komputer klasy PC wraz z opracowanym interfejsem i oprogramowaniem, kamera internetowa oraz projektor multimedialny. Gesty rozpoznawane są w procesie analizy obrazu wizyjnego pozyskanego z kamery internetowej przymocowanej do projektora oraz analizy obrazu wyświetlanego przez projektor (pozyskanego z komputera). Do rozpoznawania gestów dynamicznych zastosowano modelowanie trajektorii ruchu rąk za pomocą reguł logiki rozmytej. Gesty statyczne rozpoznawane są za pomocą maszyn wektorów nośnych (SVM). W referacie przedstawiono wyniki badania wydajności opracowanego systemu. We wnioskach przedstawiono również plany dotyczące rozbudowy systemu o algorytmy umożliwiające pracę z kamerą umieszczoną przed użytkownikiem.

Słowa kluczowe rozpoznawanie gestów, maszyna wektorów nośnych, SVM, logika rozmyta, statyczne i dynamiczne gesty rąk, wydajność

Projekt badawczy TYPOSZEREG

Pozycja nr 287

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Kostek, B. Sitek

Tytuł angielski Study of preference for surround microphone techniques, used in the recording of choir and instrumental ensemble

Tytuł polski WYBÓR STEREOFONICZNEJ TECHNIKI WIELOKANAŁOWEJ DO NAGRANIA FORMY MUZYCZNEJ

Czasopismo Archives of Acoustics

Wolumin 36

Numer czasopisma 2

Strony 365 - 378

Rok 2011

Abstract The aim of this paper is to describe the process of choosing the best surround microphone technique for recording of choir with an instrumental ensemble. First, examples of multichannel microphone techniques including those used in the recording are described. Then, the assumptions and details of music recording in Radio Gdansk Studio are provided as well as the process of mixing of the multichannel recording. The extensive subjective tests were performed employing a group of sound engineers and students in order to find the most preferable recording techniques. Because the final recording is based on the mix of “direct/ambient” and “direct-sound all-around” approaches, a subjective quality evaluation was conducted and on this basis the best rated multichannel techniques were chosen. The results show that listeners might consider different factors when choosing the best rated multichannel techniques in separate tasks, as different systems were chosen in the two tests.

Streszczenie Celem artykułu jest przedstawienie realizacji nagrania chóru wraz z zespołem muzycznym w systemie stereofonii dookólnej oraz wyboru najbardziej optymalnej dla danych warunków techniki stereofonicznej. W artykule wpierwszej kolejności przedstawiono założenia realizacji nagrania oraz techniki mikrofonowe użyte podczas nagrań. Następnie omówiono szczegóły związane z jego realizacją w studiu Radia Gdańsk. W ramach analizy przeprowadzono testy subiektywne z udziałem grupy ekspertów i studentów, na tej podstawie wybrano najlepiej ocenianą technikę wielokanałową na podstawie przygotowanych miksów nagrań. dziedzina: inżynieria dźwięku, słowa kluczowe: nagrania wielokanałowe, testy subiektywne, analiza nagrań

Projekt badawczy DS

Pozycja nr 288

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski MUSIC QUERY AND ANNOTATION PROCESSES SUPPORTED BY GAZE FIXATION TRACKING

Tytuł polski WSPOMAGANIE PROCESU WYSZUKIWANIA NAGRAŃ W REPOZYTORIACH MUZYCZNYCH

Czasopismo Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne

Wolumin LXXXIV

Numer czasopisma 6

Strony 200 - 205

Rok 2011

Uwagi SYNAT i DS

Streszczenie Celem artykułu jest przegląd kluczowych zagadnień związanych z automatycznym wyszukiwaniem informacji muzycznej MIR - Music Information Retrieval. W pierwszej kolejności przedstawiono aktualne kierunki badań i rozwiązań systemowych związane z wyszukiwaniem i rekomendacją muzyki. Następnie zaprezentowano eksperymenty przeprowadzone na skonstruowanej bazie muzycznej. Pokazano również propozycję wspomagania procesu wyszukiwania i anotacji utworów muzycznych za pomocą systemu śledzenia punktu fiksacji wzroku. Dziedzina: informatyka muzyczna, multimedia Słowa kluczowe: automatyczne wyszukiwanie muzyki, anotacja muzyki, format ID3v.1, parametryzacja, system śledzenia punktu fiksacji wzroku, repozytoria muzyczne

Projekt badawczy SYNAT

Pozycja nr 289

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, M. Sankiewicz

Tytuł angielski Retrospecting Polish Audio Engineering Society Membership on 20th Anniversary of the Polish Section of the Audio Engineering Society

Tytuł polski Inżynieria dźwięku w Polsce - osiągnięcia i dorobek

Czasopismo Archives of Acoustics

Wolumin 36

Numer czasopisma 2

Strony 187 - 197

Rok 2011

Abstract In this article some key events concerning founding Polish Section of the Audio Engineering Society were presented. In addition, the history covering International Symposia on Sound Engineering and Mastering was outlined. Also, papers contained in this issue were shortly reviewed.

Streszczenie W artykule przedstawiono najważniejsze osiągnięcia inżynierii dźwięku w Polsce, jak również dorobek tej dziedziny w ostatnich 20 latach. Dodatkowo dokonano przeglądu artykułów publikowanych w tej dziedzinie. Dziedzina: inżynieria dźwięku Słowa kluczowe: inżynieria dźwięku, akustyka muzyczna

Projekt badawczy DS

Pozycja nr 290

Typ pozycji: referat konferencyjny

Autorzy K. Kaszuba, B. Kostek

Tytuł angielski A Bimodal Approach To Brain-Computer Interaction Measurements

Tytuł polski Podejście dwumodalne do badania sprzężenia interakcji mózg-komputer

Konferencja 15 IEEE SPA 2011, IEEE Signal Processing Algorithms, Architectures, Arrangements and Applications Conference 2011

Numer preprintu

Numer

Wolumin

Strony 126 - 132

Miejsce konferencji Poznań, Polska

Data konferencji 29.9.2011- 30.9.2011

Abstract In this paper experiments that integrate EEG signal analysis with information about human visual activities are presented. For this purpose the capability of EEG- and the eye tracking-based measurement results were combined. The search for the correlation between the brain activity and the region of the screen observed by the user was performed. Electrooculography (EOG) signals obtained in a series of experiments served as reference knowledge. An attempt to fuse this knowledge with the EEG signal analysis is described and several approaches for signal pre-processing and parameterization are presented.

Streszczenie Niniejszy referat prezentuje wyniki eksperymentu mającego na celu połączenie rejestracji fal mózgowych przy równoczesnej rejestracji sprzężenia zwrotnego o aktywności wzrokowej człowieka. W tym celu połączone zostały funkcjonalności bezprzewodowego systemu rejestracji EEG oraz systemu śledzenia punktu fiksacji wzroku. Poszukiwano korelacji pomiędzy zarejestrowaną odpowiedzią mózgu a obserwowanym przez użytkownika obszarem ekranu. Sygnały elektrookulogramu zarejestrowane podczas serii testów posłużyły za punkt odniesienia do dalszych eksperymentów. Podejście wykorzystuje zaawansowane metody przetwarzania wstępnego sygnału oraz parametryzacji sygnału.

Słowa kluczowe elektroencefalografia, elektrookulogram, system śledzenia wzroku, bi modalność, biofeedback

Projekt badawczy TYPOSZEREG

Pozycja nr 291

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, B. Kunka, A. Czyżewski

Tytuł angielski Analysis of Video Accompanied by Audio Employing Gaze Tracking

Tytuł polski Analiza treści wizyjnej powiązanej z dźwiękiem z wykorzystaniem techniki śledzenia wzroku

Konferencja Seventh Symposium on Computational Aesthetics in Graphics, Visualization, and Imaging, 2011

Numer preprintu

Numer

Wolumin ACM Press. ISBN 978-

Strony

Miejsce konferencji Vancouver, Kanada

Data konferencji 5.8.2011- 7.8.2011

Uwagi Plakat

Abstract The objectivization process of carrying out correlation tests in the audio-visual domains employing gaze-tracking system was outlined. The reliability of tested subjects was checked with the statistical analysis of test results. Comparing outcomes of the dynamic heat maps generated by the gaze tracking system with the associated movie samples, it was observed that the localization of the fixation point representing view direction is directly related to the localization of the virtual sound source in the stereo phantom basis. Experiments performed show that visual objects attract the viewers’ attention, thus sound sources perceived seem to be localized closer, centrally to the screen. It was also possible to analyze whether the subject’s attention remains stable.

Streszczenie W referacie przedstawiono proces obiektywizacji badań w dziedzinie korelacji wzrokowo-słuchowych z wykorzystaniem systemu śledzenia punktu fiksacji wzroku. Uzyskane wyniki świadczą o możliwości prowadzenia tego typu testów w oparciu o system śledzenia punktu fiksacji wzroku. System ten pozwala na badanie uwagi osób testowanych, a także odpowiada na pytanie, w jaki sposób wyświetlane obiekty wizualne wpływają na percepcję dźwięku towarzyszącemu obrazowi. Dziedzina: percepcja, psychoakustyka

Słowa kluczowe korelacje wzrokowo-słuchowe, system śledzenia punktu fiksacji wzroku, obiektywizacja badań subiektywnych, wpływ obrazu na percepcję dźwięku

Projekt badawczy SYNAT

Pozycja nr 292

Typ pozycji: referat konferencyjny

Autorzy K. Kaszuba, B. Kostek

Tytuł angielski 3D hand shape for automatic assessing motor performance in Parkinson’s Disease

Tytuł polski Trójwymiarowy model kształtu dłoni w zastosowanaiu do oceny motoryki osób z chorobą Parkinsona

Konferencja International Conference on Man-Machine Interactions

Numer preprintu

Numer

Wolumin 103/2011

Strony 207 - 217

Miejsce konferencji Szczyrk, Polska

Data konferencji 6.10.2011- 9.10.2011

Uwagi Man-Machine Interactions 2 Advances in Intelligent and Soft Computing,Springier-Verlag LNAI

Abstract In this paper a method for hand pattern processing to create a 3D hand model is presented. By applying a complete hand armature to the obtained model, an interpolation of three motor test (UPDRS 23, 24 and 25) for an individual PD patient can be performed. These are: finger tapping , opening and closing the fist and rapid alternating hand movements. To obtain the functional 3D model the top view of the hand from the web cam is analyzed. The hand contour is examined to find characteristic points that allow for dividing hand image into three subareas: metacarpus, thumb and fingers. Each of those three areas is processed separately to produce a list of characteristic vertex coordinates. Then the polygons are modeled by grouping vertices into vectors of 3 or 4 values corresponding to vertex indices. Furthermore, the third dimension is introduced to the model by adding z coordinate to each vertex. Modeling results in with a full list of vertices and polygons that is then used for forming the reference animation. The final model accuracy is sufficient for the PD tests modeling and can be used as training data for the Support Vector Machine (SVM) classifier which recognizes hand gestures.

Streszczenie Artykuł opisuje metodę tworzenia trójwymiarowego modelu dłoni na podstawie obrazu zarejestrowanego z pojedynczej kamery wideo. Poprzez zastosowanie kompletnej struktury kostnej interpolowany jest ruch wykonywany przez pacjenta podczas wykonywania trzech testów motorycznych (UPDRS 23,24,25) przez pacjentów z chorobą Parkinsona. Badane są testy: stykania palców, otwierania i zamykania dłoni oraz obrotu dłoni. Aby otrzymać funkcjonalny model dłoni, analizowany jest widok z góry. Analizowany jest kontur dłoni w celu znalezienia charakterystycznych punktów siatki modelu. Kontur dzielony jest na trzy podobszary: śródręcza, palców oraz obszar kciuka. Każdy z podobszarów jest analizowany oddzielnie - w wyniku analizy tworzona jest lista charakterystycznych współrzędnych wierzchołków. Następnie modelowane są wielokąty tworzące ściany modelu, poprzez zestawienie odpowiednich 3 lub 4 indeksów wierzchołków. Trzeci wymiar dodawany jest poprzez duplikację i rozciągniecie współrzędnych uzyskanych wierzchołków. Końcowy efekt jest zadowalający i może być użyty jako model treningowy dla klasyfikatora np. maszyny wektorów wsparcia.

Słowa kluczowe modelowanie trójwymiarowe, rozpoznawanie kształtów, UPDRS, choroba Parkinsona, przetwarzanie obrazu

Projekt badawczy TYPOSZEREG

Pozycja nr 293

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, H. Skarżyński, B. Kostek

Tytuł angielski Telemedical hearing and vision screening system employing iOS based devices.

Tytuł polski Telemedyczne przesiewowe systemy badania słuchu i wzroku na platformie iOS

Konferencja 6th National Conference of the Audiology and Phoniatrics Sections of the Polish Society of Oto-Rhino-Laryngologists and Head and Neck Surgeons

Numer preprintu

Numer 1

Wolumin 1

Strony 139

Miejsce konferencji Warszawa, Polska

Data konferencji 22.6.2011- 25.6.2011

Uwagi abstracts (U-38) - Journal of Hearing Science, 2011; ISSN 2083-389X

Abstract A design and implementation of the hearing and vision screening system dedicated for the popular iOS (iPhone/iPad/iPod Operating System) based devices is presented. The aim of the system is to promote hearing and vision screening tests internationally and to analyze collected results. The examination consists of speech in noise and tone audiometry tests, color vision and contrast differentiation tests. Whenever a test is completed the system automatically evaluates user's answers and generates results.

Streszczenie W referacie przedstawiono projekt i impementację przesiewowych systemów badania słuchu i wzroku przeznaczonego do wykorzystywania na popularnej platformie iOS (iPhone/iPad/iPod Operating System). Celem opracowanego systemu jest promowanie komputerowego badania zmysłów komunikacji. Badanie opiera się na testowaniu rozumienia mowy w szumie, postzregania barw i różnicowania kontrastu. Za kazdym razem, gdy test zostaje wykonany system automatycznie przetwarzania wyniki badań i podaje badanemu do wiadomości diagnozę.

Słowa kluczowe badanie słuchu; badanie wzroku; badania przesiewowe; platforma iOS

Projekt badawczy TYPOSZEREG

Pozycja nr 294

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, A. Kupryjanow

Tytuł angielski Online Sound Restoration for Digital Library Applications

Tytuł polski Sieciowa rekonstrukcja dźwięku przeznaczona dla cyfrowych bibliotek

Konferencja SYNAT Workshop - Post-Conference Event by The International Symposium on Methodologies for Intelligent Systems (ISMIS 2011)

Numer preprintu

Numer

Wolumin 390

Strony 227 - 242

Miejsce konferencji Warszawa, Polska

Data konferencji 1.7.2011- 1.7.2011

Numer pozycji bibl. 29

Abstract A system for sound restoration having the following features was conceived and engineered: no special sound restoration software is needed to perform audio restoration; the process of online restoration employs automatic reduction of noise, wow and impulse distortions; no skills in digital signal processing are required from the user. The principles of the created system and its features as well as hitherto achieved results are discussed in the paper.

Streszczenie W referacie przedstawiono system rekonstrukcji dźwięku posiadający następujące własności: nie wymaga specjalistycznego oprogramowania służącego do rekonstrukcji sygnałów fonicznych; proces sieciowej rekonstrukcji dźwięku pozwala na automatyczne usunięcie z nagrań dźwiękowych szerokopasmowego szumu, zniekształceń impulsowych oraz drżenia i kołysania dźwięku; użytkownicy systemu nie muszą posiadać wiedzy związanej z cyfrowym przetwarzaniem sygnałów. W referacie przedstawiono zasadę działania systemu jego funkcjonalność oraz dotychczas osiągnięte wyniki.

Słowa kluczowe automatyczna rekonstrukcja dźwięku, redukcja szumu, drżenie i kołysanie dźwięku, redukcja trzasków

Projekt badawczy SYNAT

Pozycja nr 295

Typ pozycji: referat konferencyjny

Autorzy B. KOSTEK, A. SITEK

Tytuł angielski AUTOMATIC TAGGING OF MUSICAL FILES

Tytuł polski Automatyczne tagowanie utworów bazy muzycznej

Konferencja 14th International Symposium on Sound Engineering and Tonmeistering

Numer preprintu

Numer

Wolumin

Strony 1 - 6

Miejsce konferencji Wrocław, Polska

Data konferencji 19.5.2011- 21.5.2011

Uwagi materiały konferencyjne - wersja elektroniczna CD, ISBN:978-83-921663-2-0; abstract: "Archives of Acoustics", vol. 36, No.2, str. 493, poz.23

Streszczenie Celem niniejszej pracy jest zbadanie możliwości automatycznego tagowania utworów muzycznych z wykorzystaniem systemu śledzenia punktu fiksacji wzroku użytkownika. Badania przeprowadzono z udziałem dwudziestu osób o różnym doświadczeniu muzycznym. Zadaniem badanej osoby było wskazanie odpowiedzi na pytania zawarte w ankiecie internetowej, która pozwala na określenie cech utworów muzycznych, takich jak: tempo, dynamika, gatunek. Przeprowadzony eksperyment polegał na zbadaniu zależności pomiędzy odpowiedziami użytkownika a wynikami uzyskanymi przy użyciu systemu śledzenia fiksacji wzroku. W niniejszym referacie zaprezentowano szczegółowy opis przeprowadzonego eksperymentu wraz z prezentacją wybranych wyników i wniosków płynących z ich analizy.

Słowa kluczowe anotacja utworów muzycznych, system śledzenia punktu fiksacji wzroku, wyszukiwanie gatunków muzycznych

Projekt badawczy SYNAT

Pozycja nr 296

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Intelligent Multimedia Solutions Supporting Special Education Needs.

Tytuł polski Inteligentne aplikacje multimedialne w zastosowaniach wspomagających kształcenie osób ze specjalnymi potrzebami edukacyjnymi

Konferencja 19th International Symposium, ISMIS 2011, Foundations of Intelligent Systems, LNAI 6804

Numer preprintu

Numer

Wolumin

Strony 1 - 15

Miejsce konferencji Warszawa, Polska

Data konferencji 28.6.2011- 30.6.2011

Uwagi ISBN 978-3-642-21915-3

Abstract The role of computers in school education is brieﬂy discussed. Multimodal interfaces development history is shortly reviewed. Examples of applications of multimodal interfaces for learners with special educational needs are presented, including interactive electronic whiteboard based on video image analysis, application for controlling computers with facial expression and speech stretching audio interface representing audio modality. Intelligent and adaptive algorithms application to the developed multimodal interfaces is discussed.

Streszczenie Słowa kluczowe: komputeryzacja procesów dydaktycznych; interfejsy multimodalne; wirtualna tablica szkolna; spowalnianie mowy Artykuł w pierwszej części poświęcony jest dyskusji na temat roli komputerów w dydaktyce szkolnej. Następnie opisana jest krótko historia rozwoju interfejsów multimodalnych, w szczególności do zastosowań w edukacji osób niepełnosprawnych na przykłądzie m. in. opracowanej wirtualnej tablicy szkolnej, aplikacji do sterowania komputerami za pomocą gestów wykonywanych ustami, systemu do spowalniania mowy nauczyciela. Na zakończenie omówiona jest rola algorytmów adaptacyjnych i uczących się w rozwiązaniach opracowanych interfejsów multimodalnych.

Projekt badawczy TYPOSZEREG

Pozycja nr 297

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Intelligent video and audio applications for learning enhancement.

Tytuł polski Inteligentne aplikacje wideofoniczne do celu wspomagania procesu edukacyjnego

Czasopismo Journ. of Intelligent Information Systems

Wolumin

Numer czasopisma

Strony 1 - 20

Rok 2011

Uwagi Springer; ISSN 0925-9902

Abstract The role of computers in school education is briefly discussed. Multimodal interfaces development history is shortly reviewed. Examples of applications of multimodal interfaces for learners with special educational needs are presented, including interactive electronic whiteboard based on video image analysis, application for controlling computers with facial expression and speech stretching audio interface representing audio modality. Intelligent and adaptive algorithms applications to the developed multimodal interfaces are discussed.

Streszczenie Słowa kluczowe: komputeryzacja procesów dydaktycznych; interfejsy multimodalne; wirtualna tablica szkolna; spowalnianie mowy Artykuł rozpoczyna krótka dyskusja na temat roli komputerów w procesie kształcenia,. Następnie przedmiotem rozważań jest historaia rozwoju technologii interfejsów multimodalnych i przykłady ich zastosowań w edukacji osób niepełnosprawnych oparte na zastosowaniu wirtualnej tablicy interaktywnej, interfesu do sterowania komputerem na podstawie analizy gestów wykonywanych ustami oraz interfejsu fonicznego, który umożliwia rozciąganie mowy w czasie rzeczywistym. Na zakończenie artykułu podkreśloni znaczenie algorytmów inteligentnych i uczących się w tego rodzaju zastosowaniach.

Projekt badawczy TYPOSZEREG

Pozycja nr 298

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Kupryjanow, P. Żwan, W. Jiang, Z. Raś, M Wojnarski

Tytuł angielski Report of the ISMIS 2011 Contest: Music Information Retrieval

Tytuł polski Raport dotyczący konkursu ISMIS 2011: Wyszukiwanie informacji w nagraniach muzycznych

Konferencja 19th International Symposium on Methodologies for Intelligent Systems

Numer preprintu

Numer

Wolumin 6804

Strony 715 - 724

Miejsce konferencji Warszawa, Polska

Data konferencji 28.6.2011- 30.6.2011

Numer pozycji bibl. 24

Uwagi Bozena Kostek, Adam Kupryjanow, Pawel Zwan, Wenxin Jiang, Zbigniew W. Ras, Marcin Wojnarski, Joanna Swietlicka.

Abstract This report presents an overview of the data mining contest organized in conjunction with the 19th International Symposium on Methodologies for Intelligent Systems (ISMIS 2011), in days between Jan 10 and Mar 21, 2011, on TunedIT competition platform. The contest consisted of two independent tasks, both related to music information retrieval: recognition of music genres and recognition of instruments, for a given music sample represented by a number of pre-extracted features. In this report, we describe aim of the contest, tasks formulation, procedures of data generation and parametrization, as well as final results of the competition.

Streszczenie Niniejszy raport przedstawia opis konkursu eksploracji danych, który odbył się podczas 19 Sympozjum Metodologii dla Systemów Inteligentnych (ISMIS 2011), w dniach 10 - 21 marca 2011, na platformie TunedIT. Konkurs składał się z dwóch niezależnych zadań. Obydwa zadania były związane z wyszukiwaniem informacji w nagraniach muzycznych tj. : klasyfikacja gatunku muzyki oraz rozpoznawanie rodzaju instrumentu. W raporcie opisano cel konkursu, rodzaj zadań, procedury wytworzenia danych oraz parametryzacji, jak również końcowe wyniki konkursu.

Słowa kluczowe automatyczne rozpoznawanie gatunku, rozpoznawanie instrumentów, parametryzacja muzyki, systemy wyszukiwania, inteligentne systemy decyzyjne

Projekt badawczy SYNAT

Pozycja nr 299

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Szwarc, B. Kostek, J. Kotus, M. Szczodrak, A. Czyżewski

Tytuł angielski Problems of Railway Noise—A Case Study

Tytuł polski Problemy z hałasem szynowym – studium przypadku

Czasopismo International Journal of Occupational Safety and Ergonomics

Wolumin 17

Numer czasopisma 3

Strony 309 - 325

Rok 2011

Abstract Under Directive 2002/49/EC relating to the assessment and management of environmental noise, all European countries are obliged to model their environmental noise levels in heavily populated areas. Some countries have their own national method, to predict noise but most have not created one yet. The recommendation for countries that do not have their own model is to use an interim method. The Dutch SRM II scheme is suggested for railways. In addition to the Dutch model, this paper describes and discusses 3 other national methods. Moreover, discrepancies between the HARMONOISE and IMAGINE projects are analysed. The results of rail traffic noise measurements are compared with national methods.

Streszczenie Zgodnie z postanowieniami zawartymi w dyrektywnie 2002/49/EC związanej z oceną i zarządzaniem hałasem w środowisku wszystkie kraje należące do UE są zobligowane do opracowania planów akustycznych na obszarach gęsto zaludnionych. Niektóre kraje mają opracowane narodowe metody obliczeniowe umożliwiające modelowanie hałasu lecz większość krajów nie posiada własnych opracowań. Dla tych krajów zaleca się tymczasowe stosowanie metody holenderskiej SRM II w odniesieniu do źródeł hałasu szynowego. W artykule przedstawiono, oprócz modelu holenderskiego, jeszcze analizę porównawczą dla 3 innych modeli narodowych. Ponadto, w opracowaniu różnic pomiędzy modelami uwzględniono również metodę opracowaną w ramach projektów HARMONOISE oraz IMAGINE. Wyniki pomiarów hałasu szynowego porównano z wynikami otrzymanymi za pomocą poszczególnych modeli narodowych.

Słowa kluczowe hałas; transport kolejowy; regulacje prawne; źródło hałasu szynowego

Pozycja nr 300

Typ pozycji: referat konferencyjny

Autorzy P. Żwan, B. Kostek, A. Kupryjanow

Tytuł angielski Automatic Classification of Musical Audio Signals Employing Machine Learning Approach

Tytuł polski Automatyczna klasyfikacja sygnałów muzycznych z wykorzystaniem metod uczenia maszynowego

Konferencja Konwencja AES 2011

Numer preprintu 8449

Numer

Wolumin

Strony 1 - 9

Miejsce konferencji Londyn, Wielka Brytania

Data konferencji 13.5.2011- 16.5.2011

Numer pozycji bibl. 20

Abstract This paper presents a thorough analysis of automatic classification applied to musical audio signals. The classification is based on a chosen set of machine learning algorithms. A database of 60 music composers/performers was prepared for the purpose of the described research. For each of the musicians, 15-20 music pieces were collected. All the pieces were partitioned into 20 segments and then parameterized. The feature vector consisted of 171 parameters, including MPEG-7 low-level descriptors and mel-frequency cepstral coefficients (MFCC) complemented with time-related dedicated parameters. The task of the classifier was to recognize the composer/performer and to properly categorize a selected piece of music. The paper also presents and discusses the results of classification.

Streszczenie W referacie przedstawiono kompletną analizę automatycznej klasyfikacji sygnałów muzycznych. Klasyfikacja oparta jest na wybranych metodach uczenia maszynowego. W celach badawczych opracowano bazę nagrań składającą się z nagrań muzycznych należących do 60 kompozytorów/wykonawców. Każde nagranie zapisane w bazie zostało podzielone na 20 fragmentów i sparametryzowane. Wektor parametrów składa się ze 171 wartości i zwierał deskryptory MPEG-7, współczynniki MFCC oraz dedykowane parametry czasowe. Zadanie klasyfikacji polegało na rozpoznaniu kompozytora/wykonawcy. W ostatniej części referatu przedstawiono oraz przedyskutowano wyniki klasyfikacji.

Słowa kluczowe automatyczne rozpoznawanie gatunku, parametryzacja muzyki, systemy wyszukiwania, inteligentne systemy decyzyjne

Projekt badawczy SYNAT

Pozycja nr 301

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, A. Kupryjanow

Tytuł angielski AUTOMATIC SOUND RESTORATION SYSTEM -CONCEPTS AND DESIGN

Tytuł polski System automatycznej rekonstrukcji dźwięku – koncepcja i projekt

Konferencja SIGMAP

Numer preprintu

Numer

Wolumin

Strony 1 - 5

Miejsce konferencji Sewilla, Hiszpania

Data konferencji 19.7.2011- 21.7.2011

Numer pozycji bibl. 13

Abstract A concept of a system for automatic audio recording reconstruction is described. It is supported by the video image reconstruction algorithm, focused on the video instability analysis. Sound restoration is performed focusing on noise and wow and flutter analysis. Presented algorithms are designed to be automatic and to reduce the human effort during the restoration process. A web service designed especially for automatic restoration process is envisioned as an integration platform for these algorithms and for repository of recordings.

Streszczenie W referacie przedstawiono koncepcję systemu automatycznej rekonstrukcji nagrań fonicznych. Proces rekonstrukcji dźwięku jest wspierany przez zastosowanie analizy obrazu filmowego ukierunkowaną na śledzenie stabilności klatek filmowych. Z sygnału dźwiękowego usuwane są następujące zakłócenia: szerokopasmowy szum, drżenie i kołysanie dźwięku. Przedstawione algorytmy rekonstrukcji zastały opracowane tak by zminimalizować udział człowieka w procesie poprawy jakości dźwięku. W celu udostępnienia opracowanych mechanizmów rekonstrukcji oraz nagrań zgromadzonych w repozytorium zaproponowano specjalny serwis internetowy zoptymalizowany pod kątem pracy z nagraniami fonicznymi.

Słowa kluczowe rekonstrukcja dźwieku, skurcz taśmy, redukcja szumu, redukcja drżenia i kołysania dźwięku

Projekt badawczy SYNAT

Pozycja nr 302

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Observing uncertainty in music tagging by automatic gaze tracking

Tytuł polski Anotacja muzyki z wykorzystaniem systemu śledzenia punktu fiksacji wzroku

Konferencja 42nd International Audio Eng. Soc. Conference Semantic Audio

Numer preprintu

Numer

Wolumin

Strony 79 - 85

Miejsce konferencji Ilmenau, Germany

Data konferencji 22.7.2011- 24.7.2011

Abstract In this paper, a new approach to observe music file tagging process by employing a gaze tracking system is proposed. The study was conducted with the participation of twenty subjects having different musical experience. For the purpose of the experiments a website survey based on a musical database was prepared. It allowed to gather information about music experience of subjects along with music characteristics such as genre, tempo, dynamics, etc. The results obtained from the preliminary tests show that it is also possible to use a gaze tracking system to automatically tag music characteristics, however this process should be optimized. Conclusions are derived with respect to the outcomes of the experiments. Future directions aimed at optimization the experimental set-up are also discussed.

Streszczenie Celem pracy była próba obiektywizacji procesu anotacji utworów muzycznych z wykorzystaniem systemu śledzenia punktu fiksacji wzroku. W eksperymentach wzięło udział 20 studentów, których zadaniem było podanie określeń dotyczacych takich cech utworów, jak: tempo, dynamika, gatunek. Opracowano stronę internetową eksperymentu, która pozwoliła na pobieranie plików muzycznych, ich odsłuch, a także na wypełnienie ankiety przez użytkownika. Analiza wyników dotyczyła poszukiwania korelcji pomiędzy sposobem i czasem nadawania tagów przez osobę biorącą udział wteście a informacją pozyskaną z systemu śledzenia punktu fiksacji wzroku. Słowa kluczowe: rozpoznawanie muzyki, wyszukiwanie muzyki, anotacja utworów muzycznych, system śledzenia punktu fiksacji wzroku. dziedzina: informatyka muzyczna

Projekt badawczy SYNAT

Pozycja nr 303

Typ pozycji: referat konferencyjny

Autorzy T. Poremski, B. Kostek

Tytuł angielski Tinnitus Therapy Based on High-Frequency Linearization

Tytuł polski Terapia szumów usznych z zastosowaniem linearyzacji ultradźwiękowej

Konferencja 58 Otwarte Seminarium z Akustyki

Numer preprintu

Numer

Wolumin II

Strony 199 - 2010

Miejsce konferencji Jurata, PL

Data konferencji 13.9.2011- 16.9.2011

Abstract The aim of this work was to present problems related to tinnitus symptoms, its pathogenesis, hypotheses on tinnitus causes, and therapy treatments to reduce or mask the phantom noise. In addition, the hypothesis on the existence of parasitic quantization that accompanies hearing loss was recalled. The paper contains a description of experiments carried out with the application of high-frequency dither having specially formed spectral characteristics. Report, discussion on results obtained and conclusions are also included.

Streszczenie W pracy przedstawiono problemy szumów usznych, ich patogenezę, hipotezy dotyczące przyczyny występowania szumów usznych oraz stosowane metody terapii. Dodatkowo przywołano jedną z teorii powstawania szumów usznych opartej na mechanizmie działania układów kwantyzacji. W dalszej kolejności zawarto opis przeprowadzonych badań wykorzystujących mechanizm linearyzacji ultradźwiękowej, przedstawiono dyskusję uzyskanych wyników oraz wnioski. Słowa kluczowe: audiologia, szumy uszne, mechanizm linearyzacji ultradźwiękowej, dziedzina: audiologia

Projekt badawczy DS

Pozycja nr 304

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Content-Based Approach to Automatic Recommendation of Music

Tytuł polski WYSZUKIWANIE INFORMACJI MUZYCZNEJ Z WYKORZYSTANIEM PODEJŚCIA OPARTEGO NA ANALIZIE ZAWARTOŚCI UTWORU MUZYCZNEGO

Konferencja 131 Audio Eng. Soc. Convention

Numer preprintu 8505

Numer

Wolumin

Strony 1 - 14

Miejsce konferencji New York, USA

Data konferencji 20.10.2011- 23.10.2011

Abstract This paper presents a content-based approach to music recommendation. For this purpose, a database which contains more than 50000 music excerpts acquired from public repositories was built. Datasets contain tracks of distinct performers within several music genres. All music pieces were converted to mp3 format and then parameterized based on MPEG-7, mel-cepstral and time-related dedicated parameters. All feature vectors are stored as csv files and will be available on-line. A study of the database statistical characteristics was performed. Different splits into train and test sets were investigated to provide the most accurate evaluation of the decision-based solutions. Classification time and memory complexity were also evaluated.

Streszczenie W referacie przedstawiono analizę bazy muzycznej opartej na analizie statystycznej zawarości utworów muzycznych. Opisano bazę muzyczną zawierającą 50000 fragmentów utworów muzycznych.Podano zastosowany sposób parametryzacji, zastosowane w wyszukiwaniu systemy decyzyjne oraz wyniki eksperymentów. Przeanalizowano również złożność czasową zastosowamych algorytmów.

Słowa kluczowe wyszukiwanie muzyki, baza muzyczna, standard MPEG 7, systemy decyzyjne

Projekt badawczy SYNAT

Pozycja nr 305

Typ pozycji: patent

Autorzy M. Lech, B. Kostek, A. Czyżewski

Tytuł polski Układ do miksowania dźwięku

Numer patentu P.223813

Data zgłoszenia 28.6.2011

Uwagi Prawo wyłączne, data publikacji WUP: 2016-11-30

Streszczenie wykaz towarów Sposób miksowania dźwięku polegający na zmianie parametrów i sterowaniu parametrami sygnału zapisanego na poszczególnych ścieżkach dźwiękowych składających się na końcowy sygnał foniczny za pomocą aplikacji komputerowej udostępniającej operacje miksowania dźwięku charakteryzuje się tym, że określone operacje miksowania wybiera się i wykonuje bezkontaktowo za pomocą gestów obiektów sterujących (OS) odbieranych przez moduł akwizycji gestów (K), które po ich przetworzeniu metodami cyfrowymi w urządzeniu sterującym (U) współpracującym z komputerem (C) wykorzystuje się do generowania sygnałów elektronicznych sterujących wyborem operacji miksowania dla aplikacji komputerowej udostępniającej operacje miksowania dźwięku, przy czym użytkownik dowolnie określa i modyfikuje powiązania gestów z poszczególnymi operacjami miksowania. System miksowania dźwięku zawiera zespół głośników (G) współpracujących z komputerem (C) wyposażonym w aplikację komputerową (AM) udostępniającą operacje miksowania dźwięku i wyposażony jest w urządzenie sterujące (U) sprzężone z komputerem (C) i posiadające moduł akwizycji gestów (K) sprzężony bezkontaktowo z obiektami sterującymi (OS).

Słowa kluczowe miksowanie dźwięku, rozpoznawanie gestów rąk

Projekt badawczy TYPOSZEREG

Pozycja nr 306

Typ pozycji: książka

Autorzy J. Wójcik, B. Kostek

Tytuł angielski Representations of Music in Ranking Rhythmic Hypotheses

Tytuł polski Reprezentacje struktury utworu muzycznego w procesie porządkowania hipotez rytmicznych

Wydawca Springer-Verlag Berlin Heidelberg

Strony 39 - 64

Rok 2010

Uwagi Chapter in Advances in Music Information Retrieval, SCI 274

Abstract The chapter presents first the main issues related to music information retrieval (MIR) domain. Within this domain, there exists a variety of approaches to musical instrument recognition, musical phrase classification, melody classification (e.g. query-by-humming systems), rhythm retrieval, retrieval of high-level- musical features such as looking for emotions in music or differences in expressiveness, music search based on listeners’ preferences, etc. The objective of this study is to propose a method for retrieval of hypermetric rhythm on the basis of melody. A stream of sounds in MIDI format is introduced at the system input. On the basis of a musical content the method retrieves a hypermetric structure of rhythm of a musical piece consisting of rhythmic motives, phrases, and sentences. On the basis of the hypermetric structure retrieved, a system capable of creating automatic drum accompaniment to a given melody supporting the composition is proposed. A method does not use any information about rhythm (time signature), which is often included in MIDI information. Neither rhythmic tracks nor harmonic information are used in this method. The only information analyzed is a melody, which may be monophonic as well as polyphonic. The analysis starts after the entire piece has been played. Recurrence of melodic and rhythmic patterns and the rhythmic salience of sounds are combined to create an algorithm that finds the metric structure of rhythm in a given melody.

Streszczenie Celem pracy opisanej w niniejszym rozdziale było znalezienie struktury wzorców rytmicznych z podziałem na motywy, frazy, zdania i okresy muzyczne. Następnie zaproponowana została metoda tworzenia hipotez rytmicznych składających się z tych poziomów rytmicznych, które są w relacji ze sobą. Otrzymane hipotezy były następnie porządkowane w kolejności malejącej wartości funkcji porządkujacej, aby ustalić, która ze znalezionych hipotez będzie uznana za właściwą strukturę rytmiczną utworu muzycznego. Drugi rodzaj metod porządkowania hipotez związany jest z powtarzalnością wzorców wyznaczonych przez hipotezy, n-gramy są reprezentowane jako kontur melodyczny, sekwencja interwałów oraz sekwencja kierunków interwałów. Przeprowadzone eksperymenty, mające na celu ustalenie wagi rytmicznej dźwięków z użyciem zaproponowanych uprzednio modeli, wykorzystując różne zestawy danych uczących i testujących wskazują na dużą skuteczność opracowanych metod. W ramach badań przeprowadzono również nieformalne testy subiektywne, których wyniki wskazują na poprawność tworzonych hipotez rytmicznych i zgodność automatycznie generowanego rytmu do zadanej melodii z oczekiwaniami słuchaczy. Słowa kluczowe: automatyczne wyszukiwanie muzyki, rytm, struktura rytmiczna, hipotezy rytmiczne, systemy uczące

Pozycja nr 307

Typ pozycji: referat konferencyjny

Autorzy A. Kupryjanow, B. Kunka, B. Kostek

Tytuł angielski UPDRS tests for Diagnosis of Parkinson’s Disease Employing Virtual-Touchpad

Konferencja 4th International Workshop on Management and Interaction with Multimodal Information Content - MIMIC '10

Numer preprintu

Numer

Wolumin

Strony 132 - 136

Miejsce konferencji Bilbao, Hiszpania

Data konferencji 30.8.2010- 3.9.2010

Numer pozycji bibl. 9

Uwagi DEXA 2010

Abstract This paper presents a new approach to diagnosing Parkinson’s disease. The progression of the disease can be measured by the UPDRS (Unified Parkinson Disease Rating Scale) scale which is used to evaluate motor and behavioral symptoms of Parkinson's disease. Hitherto the evaluation of the advancement of the disease in the UPDRS scale was made by a specialist through medical observation. The authors suggest a partial automation of this process, i.e. using a multimodal interface called Virtual-Touchpad (VTP) may support the medical diagnosis. VTP is based on processing the image of hand acquired by a camera. Therefore, a patient is not constrained by any equipment. Two types of UPDRS tests that can be supported by VTP are presented in the paper. In the Finger Taps test the patient taps thumb with index finger in rapid succession. The Rapid Alternating Movement of Hands test consists in pronation-supination movements of hands. VTP captures the image of the patient’s hand while performing the test and, based on this image, it assigns hand gesture to the given class. The hand movement velocity is measured and used in the diagnostic process.

Streszczenie W artykule przedstawiono nowe podejście diagnozowania choroby Parkinsona. W ocenie postępów choroby może być wykorzystana skala UPDRS, która służy do oceny ruchowych i bahawioralnych objawów choroby Parkinsona. Dotychczas ocena zaawansowania choroby odbywała się przy udziale specjalistów podczas obserwacji medycznej. Autorzy sugerują częściową automatyzację tego procesu poprzez wykorzystanie interfejsu gestowego o nazwie Wirtualny Touchpad. Zasada działania interfejsu jest oparta na przetwarzaniu obrazu dłoni pozyskanego z kamery umieszczonej nad biurkiem. Stąd pacjent nie jest ograniczony żadnym dodatkowym sprzętem. W artykule przedstawiono dwa testy UPDRS wspierane przez Wirtualnego Touchpada. Interfejs przechwytuje obraz dłoni w trakcie wykonywania badania przez pacjenta, jednocześnie przypisując analizowany gest dłoni do odpowiedniej klasy. Ponadto, mierzona jest prędkość wykonywania poszczególnych gestów, która jest wykorzystywana również w diagnostyce.

Słowa kluczowe choroba Parkinsona, testy UPDRS, UPDRS, motoryka dłoni, interfejs gestowy, sterowanie komputerem za pomocą gestów dłoni

Projekt badawczy TYPOSZEREG

Pozycja nr 308

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyżewski

Tytuł angielski Gaze-Tracking Based Audio-Visual Correlation Analysis Employing Quality of Experience Methodology

Tytuł polski System sledzenia punktu fiksacji wzroku w badaniach korelacji sluchowo-wzrokowych uwzgledniajacych metodyke QoE

Czasopismo Intelligent Decision Technologies (IDT) Journal

Wolumin

Numer czasopisma ISSN 1872-4981/10

Strony 217 - 227

Rok 2010

Numer pozycji bibl. 32

Uwagi DOI 10.3233/IDT-2010-0082

Abstract This paper investigates a new approach to audio-visual correlation assessment based on the gaze-tracking system developed at the Multimedia Systems Department (MSD) of Gdansk University of Technology (GUT). The gaze-tracking methodology, having roots in Human-Computer Interaction borrows the relevance feedback through gaze-tracking and applies it to the new area of interests, which is Quality of Experience. Results of subjective tests carried out at the MSD showed a strong dependency between video presented in the screen and the perceived audio. It has also been shown that the application of gaze-tracking to the audio-visual correlation analysis allows for the objectivization of results obtained in subjective tests. Therefore this research study concentrates on the possibility to apply this methodology to the area of Quality of Experience.

Streszczenie W niniejszym artykule przedstawiono nowe podejście do badań korelacji wzrokowo-słuchowych z wykorzystaniem systemu śledzenia wzroku, opracowanego w Katedrze Systemów Multimedialnych (KSM) Politechniki Gdańskiej. Technika śledzenia wzroku wywodzącą się z technik HCI (ang. Human-Computer interactions) zostaje wykorzystana w nowym obszarze, jakim jest dziedzina Quality of Experience (QoE). Wyniki testów subiektywnych przeprowadzonych w KSM wskazują na silną zależność pomiędzy obrazem wizyjnym prezentowanym na ekranie a percypowanym bodźcem dźwiękowym. Pokazano również, że zastosowanie techniki śledzenia wzroku w analizie korelacji wzrokowo-słuchowych prowadzi do obiektywizacji wyników uzyskanych podczas testów subiektywnych.

Słowa kluczowe śledzenie wzroku, system śledzenia wzroku, korelacje wzrokowo-słuchowe, korelacje słuchowo-wzrokowe, Quality of Experience, QoE, obiektywizacja, obiektywizacja badań subiektywnych

Projekt badawczy TYPOSZEREG

Pozycja nr 309

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek

Tytuł angielski Gesture-based Computer Control System Applied to the Interactive Whiteboard

Tytuł polski System Sterowania Komputerem za Pomocą Gestów w Zastosowaniu do Interaktywnej Tablicy

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin 18

Numer czasopisma 8/2010

Strony 121 - 126

Rok 2010

Abstract In the paper the gesture-based computer control system coupled with the dedicated touchless interactive whiteboard is presented. The system engineered enables a user to control any top-most computer application by using one or both hands gestures. First, a review of gesture recognition applications with a focus on methods and algorithms applied is given. Hardware and software solution of the system consisting of a PC, camera, multimedia projector and screen for projected images is presented. Image processing methods used and the fuzzy rule-based gesture recognition concept are described. The application called Interactive Whiteboard, enabling to draw shapes on a virtual whiteboard developed for use with the system is then presented. The functionality of the Interactive Whiteboard and the way of managing the contents with hand gestures is shown. Results of testing the system are also contained.

Streszczenie W pracy przedstawiono system sterowania komputerem za pomocą gestów w powiązaniu z dedykowaną aplikacją Interaktywnej Tablicy. Opracowany system umożliwia kontrolowanie aktywnej w danym momencie aplikacji komputerowej za pomocą gestów jednej bądź obu rąk. W pierwszej części pracy przedstawiono wybrane systemy rozpoznawania gestów wraz ze stosowanymi metodami. Następnie zaprezentowano rozwiązanie sprzętowo-programowe systemu, składające się z komputera klasy PC, kamery, projektora multimedialnego i ekranu dla wyświetlanego obrazu. Opracowany system współpracuje z przygotowaną aplikacją tzw. interaktywną tablicą, umożliwiającą pisanie i rysowanie na tablicy. Przedstawiono zastosowane metody przetwarzania obrazu i metodę rozpoznawania gestów opartą na logice rozmytej. Opisano również funkcje udostępniane przez interfejs interaktywnej tablicy i sposób zarządzania zawartością za pomocą gestów rąk. Następnie zawarto wyniki testów systemu, zaś we wnioskach podano propozycje rozwoju opracowanego systemu.

Słowa kluczowe Wirtualna Tablica, rozpoznawanie gestów

Projekt badawczy TYPOSZEREG

Pozycja nr 310

Typ pozycji: książka

Autorzy M. Lech, B. Kostek

Tytuł angielski The efficiency of J2SE and C++ / OpenCV frameworks in the context of controlling a computer by gestures, in: Metody wytwarzania i zastosowania systemów czasu rzeczywistego

Tytuł polski Systemy Czasu Rzeczywistego - Wydajność środowisk J2SE i C++ / OpenCV w zagadnieniu sterowania komputerem za pomocą gestów, w: Metody wytwarzania i zastosowania systemów czasu rzeczywistego

Wydawca WKŁ

Strony 187 - 196

Rok 2010

Abstract In the chapter the system enabling to control a computer by hand gestures has been presented. The system belongs to group of soft real-time systems. Its components are: a PC, a webcam, a multimedia projector and a projection screen. The interface software has been developed using J2SE and Visual Studio C++ with OpenCV library frameworks. The module providing interpretation of detected hand positions changes as gestures was engineered using J2SE framework with JFuzzyLogic package. The package provides fuzzy logic methods. The part responsible for processing an image and hand positions detection was developed using C++ / OpenCV environment. The system was analysed in the context of its response in changeable environment conditions and time constraints. The efficiency of both frameworks has been compared.

Streszczenie W rozdziale przedstawiono interfejs sterowania komputerem za pomocą gestów rąk, należący do grupy systemów czasu rzeczywistego o łagodnych granicach (ang. soft real-time). Komponentami systemu są: komputer klasy PC, kamera internetowa, rzutnik multimedialny i ekran dla rzutnika. Oprogramowanie interfejsu opracowano w oparciu o środowiska J2SE i Visual Studio C++ z użyciem biblioteki OpenCV. Moduł systemu realizujący interpretację rozpoznanych pozycji rąk w postaci gestów zrealizowano w środowisku J2SE wykorzystując pakiet JFuzzyLogic, udostępniający metody logiki rozmytej. Część odpowiedzialną za przetwarzanie obrazu i detekcję pozycji rąk stworzono zarówno w środowisku J2SE jak i C++ / OpenCV. Dokonano analizy systemu pod kątem jego odpowiedzi w warunkach zmiennego środowiska i ograniczeń czasowych. Porównano wydajność obu środowisk, a wyniki przedstawiono w postaci tabeli.

Słowa kluczowe system czasu rzeczywistego, logika rozmyta, J2SE, C++, OpenCV, wydajność środowisk

Projekt badawczy TYPOSZEREG

Pozycja nr 311

Typ pozycji: książka

Autorzy M. Lech, B. Kostek

Tytuł angielski Fuzzy Rule-based Dynamic Gesture Recognition Employing Camera & Multimedia Projector; in: Advances in Intelligent and Soft Computing, Advances in Multimedia and Network Information System Technologies

Tytuł polski Zastosowanie Reguł Rozmytych w Procesie Rozpoznawania Gestów Dynamicznych z Wykorzystaniem Kamery i Rzutnika

Wydawca Springer-Verlag

Strony 69 - 78

Rok 2010

Abstract In the paper the system based on camera and multimedia projector enabling a user to control computer applications by dynamic hand gestures is presented. The main objective is to present the gesture recognition methodology which bases on representing hand movement trajectory by motion vectors analyzed using fuzzy rule-based inference. The approach was engineered in the system developed with J2SE and C++ / OpenCV technology. OpenCV was used for image processing and J2SE with jFuzzyLogic package for gesture interpretation. Results of fuzzy rule-based and fixed threshold-based gesture recognition effectiveness are provided. As an example of system usage the so-called Interactive Whiteboard application is presented. Details on the application engineered are provided in the context of fuzzy inference processing.

Streszczenie W artykule zaprezentowano system oparty na kamerze i projektorze multimedialnym umożliwiający użytkownikowi sterowanie aplikacjami komputerowymi za pomocą dynamicznych gestów rąk. Głównym celem artykułu jest przedstawienie metodologii polegającej na reprezentowaniu trajektorii ruchu rąk za pomocą wektorów analizowanych w oparciu o wnioskowanie rozmyte. System wytworzono w oparciu o technologię J2SE i C++/OpenCV. Bilbioteka OpenCV została zastosowana do przetwarzania obrazu, a platforma J2SE z pakietem jFuzzyLogic do interpretacji gestów. W artykule przedstawiono wyniki skuteczności rozpoznawania gestów w oparciu o wnioskowanie rozmyte i ostre progi podjęcia decyzji. Jako przykład zastosowania systemu przedstawiono aplikację Wirtualna tablica. Szczegóły dotyczące aplikacji przedstawiono w kontekście przetwarzania opartego na wnioskowaniu rozmytym.

Słowa kluczowe rozpoznawanie gestów, logika rozmyta, wektory ruchu, Wirtualna Tablica, J2SE, C++, OpenCV

Projekt badawczy TYPOSZEREG

Pozycja nr 312

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek

Tytuł angielski Gesture-based Computer Control System Applied to the Interactive Whiteboard

Tytuł polski System Sterowania Komputerem za Pomocą Gestów w Zastosowaniu do Interaktywnej Tablicy

Konferencja 2nd International Conference on Information Technology ICIT'2010

Numer preprintu

Numer

Wolumin

Strony 75 - 78

Miejsce konferencji Gdańsk, Polska

Data konferencji 28.6.2010- 30.6.2010

Uwagi Materiały konferencyjne w zasobach serwisu IEEE Xplore

Abstract In the paper the gesture-based computer control system coupled with the dedicated touchless interactive whiteboard is presented. The system engineered enables a user to control any top-most computer application by using one or both hands gestures. First, a review of gesture recognition applications with a focus on methods and algorithms applied is given. Hardware and software solution of the system consisting of a PC, camera, multimedia projector and screen for projected images is presented. Image processing methods used and the fuzzy rule-based gesture recognition concept are described. The application called Interactive Whiteboard, enabling to draw shapes on a virtual whiteboard developed for use with the system is then presented. The functionality of the Interactive Whiteboard and the way of managing the contents with hand gestures is shown. Results of testing the system are also contained.

Streszczenie W pracy przedstawiono system sterowania komputerem za pomocą gestów w powiązaniu z dedykowaną aplikacją Interaktywnej Tablicy. Opracowany system umożliwia kontrolowanie aktywnej w danym momencie aplikacji komputerowej za pomocą gestów jednej bądź obu rąk. W pierwszej części pracy przedstawiono wybrane systemy rozpoznawania gestów wraz ze stosowanymi metodami. Następnie zaprezentowano rozwiązanie sprzętowo-programowe systemu, składające się z komputera klasy PC, kamery, projektora multimedialnego i ekranu dla wyświetlanego obrazu. Opracowany system współpracuje z przygotowaną aplikacją tzw. interaktywną tablicą, umożliwiającą pisanie i rysowanie na tablicy. Przedstawiono zastosowane metody przetwarzania obrazu i metodę rozpoznawania gestów opartą na logice rozmytej. Opisano również funkcje udostępniane przez interfejs interaktywnej tablicy i sposób zarządzania zawartością za pomocą gestów rąk. Następnie zawarto wyniki testów systemu, zaś we wnioskach podano propozycje rozwoju opracowanego systemu.

Słowa kluczowe Wirtualna Tablica, rozpoznawanie gestów, logika rozmyta, przetwarzanie obrazu

Projekt badawczy TYPOSZEREG

Pozycja nr 313

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Lech, B. Kostek, A. Czyżewski, P. Odya

Tytuł angielski Gesture-based Computer Control System

Tytuł polski System Sterowania Komputerem za Pomocą Gestów

Czasopismo Elektronika - Konstrukcje, Technologie, Zastosowania

Wolumin

Numer czasopisma 3/2010

Strony 49

Rok 2010

Abstract In the paper a system for controlling computer applications by hand gestures is presented. First, selected methods used for gesture recognition are described. The System hardware and a way of controlling a computer by gestures is presented. The architecture of the software along with hand gesture recognition methods and algorithms used is described. The set of basic gestures and, consisting of them, complex gestures recognized by the system is given.

Streszczenie W artykule przedstawiono System Sterowania Komputerem za Pomocą Gestów Rąk. W pierwszej części dokonano przeglądu wybranych metod rozpoznawania gestów. Następnie zaprezentowano część sprzętową Systemu oraz metodykę sterowania. Opisano również architekturę oprogramowania wraz z metodami i algorytmami zastosowanymi przy rozpoznawaniu gestów rąk. W dalszej części udostępniono zestaw prostych gestów oraz bazujących na nich gestów złożonych, rozpoznawanych przez system.

Słowa kluczowe rozpoznawanie gestów, architektura systemu

Projekt badawczy TYPOSZEREG

Pozycja nr 314

Typ pozycji: referat konferencyjny

Autorzy P. Żwan, K. Kaszuba, B. Kostek

Tytuł angielski Monitoring Parkinson's Disease Patients Employing Biometric Sensors and Rule-Based Data Processing

Tytuł polski Monitorowanie pacjentów z Chorobą Parkinsona przy użyciu sensorów biomedycznych oraz zadaniowego przetwarzania danych

Konferencja 7th International Conference on Rough Sets and Current Trends in Computing (RSCTC 2010)

Numer preprintu

Numer

Wolumin

Strony 110 - 119

Miejsce konferencji Warszawa, Polska

Data konferencji 28.6.2010- 30.6.2010

Uwagi ISBN-10 3-642-13528-5

Abstract The paper presents how rule-based processing can be applied to automatically evaluate the motor state of Parkinson's Disease patients. Automatic monitoring of patients by using biometric sensors can provide assessment of the Parkinson's Disease symptoms. All data on PD patients' state are compared to historical data stored in the database and the a rule-based decision is applied to assess the overall illness state. The training procedure based on doctors' questionnaires is presented. These data constitute the input of several rule-based classifiers. It has been proved that the rough-set-based algorithm can be very suitable for automatic assessment of the PD patient's stability/worsening state.

Streszczenie Artykuł prezentuję podejście oparte o tworzenie reguł do automatycznego monitorowania stanu postępu choroby Parkinsona. Automatyczny monitoring pacjenta jest realizowany poprzez użycie sensorów biomedycznych, które zwracają informację zwrotną o nasileniu objawów motorycznych u pacjenta. Wszystkie dane porównywane są ze zarchiwizowanymi danymi o postępie choroby u każdego pacjenta. Wszystkie dane przechowywane są w tabelach, metody decyzyjne oparte o tworzenie reguł określają stan postępu choroby u pacjenta. Procedura treningu została zrealizowana w oparciu o dane uzyskane od lekarzy. Podejście wykorzystuje metodę zbiorów przybliżonych, które są optymalną metodą do zagadnienia.

Słowa kluczowe zbiory przybliżone, choroba Parkinsona, sensory biomedyczne, reguły decyzyjne

Pozycja nr 315

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek

Tytuł angielski Gesture Controlled Interactive Whiteboard Based on SVM and Fuzzy Logic

Tytuł polski Interaktywna Tablica sterowana za pomocą gestów oparta na klasyfikatorze SVM i logice rozmytej

Konferencja SIGGRAPH 2010

Numer preprintu

Numer

Wolumin

Strony 1

Miejsce konferencji Los Angeles, USA

Data konferencji 25.7.2010- 29.7.2010

Abstract The system presented utilizes a camera placed behind the user, coupled with a multimedia projector. Gestures are recognized on the variable background. No special manipulators or infrared lights are necessary. To present the possibilities of such a use the Interactive Whiteboard application was developed. Besides the basic functionalities of writing, deleting the content, etc. the user can load images of various types and draw on them. Recognition of gestures enabling the user to rotate, zoom or to browse the images is provided by the system.

Streszczenie Przedstawiony system wykorzystuje kamerę umieszczoną za użytkownikiem, sprzężoną z projektorem multimedialnym. Gesty są rozpoznawane na zmiennym tle. Nie są wymagane żadne specjalne manipulatory lub diody podczerwieni. W celu zaprezentowania możliwości takiej konfiguracji opracowano aplikację Interaktywna Tablica. Poza podstawową funkcjonalnością taką jak pisanie lub usuwanie treści, użytkownik może wczytywać obrazy różnych typów i rysować na nich. System realizuje rozpoznawanie gestów, za pomocą których użytkownik może obracać, powiększać i zmniejszać oraz przeglądać obrazy.

Słowa kluczowe Wirtualna Tablica, rozpoznawanie gestów, maszyna wektorów nośnych, SVM, logika rozmyta

Projekt badawczy TYPOSZEREG

Pozycja nr 316

Typ pozycji: referat konferencyjny

Autorzy K. Kaszuba, K. Kopaczewski, P. Odya, B. Kostek

Tytuł angielski Hemispherocal synchronization employing biofeedback mechanism

Tytuł polski Synchronizacja półkul mózgowych z zastosowaniem mechanizmu biofeedback

Konferencja VIII Krajowa Konferencja Technologie Informacyjne

Numer preprintu

Numer

Wolumin

Strony 195 - 201

Miejsce konferencji Gdańsk, Polska

Data konferencji 28.6.2010- 30.6.2010

Uwagi zamieczony w: Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej; Technologie Informacyjne TOM 19

Abstract In the paper two individual attempts to build hemisphere synchronization system based on biofeedback techniques are presented. For both concepts a unique wireless EEG recording system was applied. In order to minimize the EOG artefacts from EEG signal, methods of signal preprocessing and analysis are applied and described. The first approach examines how binaural sounds influent synchronization state by using statistical analysis. The second methodology is based on analyzing wavelet coefficients calculated for different time windows. In conclusion both methods effectiveness in case of building the system is evaluated. Also the possibilities of system development are included.

Streszczenie W niniejszej pracy zaproponowane zostały dwa indywidualne podejścia do budowy systemu wspomagającego synchronizację półkul mózgowych przy pomocy mechanizmu biofeedback. Dla obu rozwiązań wykorzystane zostało urządzenie wykorzystujące bezprzewodowy system rejestracji sygnałów EEG. W pierwszym podejściu sprawdzono wpływ dudnień różnicowych na stan synchronizacji z zastosowaniem statystycznych metod analizy. W drugiej metodzie zbadane zostały możliwości stworzenia systemu działającego w czasie rzeczywistym. Ze względu na duże zakłócenia przy rejestracji sygnałów EEG, w obu przypadkach zastosowano metody przetwarzania wstępnego pozyskanych sygnałów. We wnioskach oceniono skuteczność obu metod do realizacji omawianego systemu oraz przedstawiono możliwości jego rozwoju.

Słowa kluczowe elektroencefalografia, elektrookulogram, filtracja adaptacyjna, biofeedback, synchronizacja półkul mózgowych

Projekt badawczy TYPOSZEREG

Pozycja nr 317

Typ pozycji: referat konferencyjny

Autorzy K. Kaszuba, K. Kopaczewski, P. Odya, B. Kostek

Tytuł angielski Biofeedback-based brain hemispheric synchronizing employing man-machine interface

Tytuł polski Synchronizacja półkul mózgowych z zastosowaniem metod biofeedback w komunikacji człowiek - komputer

Konferencja KES 2010, The 3rd International Symposium on Intelligent and Interactive Multimedia: Systems and Services

Numer preprintu

Numer

Wolumin 6

Strony 59 - 69

Miejsce konferencji Baltimore, USA

Data konferencji 28.7.2010- 30.7.2010

Uwagi rozdział w książce G.A. Tsihrintzis et al. (Eds.): Intelligent Interactie Multimedia Systems and Services

Abstract In this paper an approach to build a brain computer-based hemispheric synchronization system is presented. The concept utilizes the wireless EEG signal registration and acquisition as well as advanced pre-processing methods. The in-fluence of various filtration techniques of EOG artifacts on brain state recognition is examined. The emphasis is put on brain state recognition using band pass filtra-tion for separation of individual brain rhythms. In particular, the recognition of al-pha and beta states is examined to assess whether synchronization occurred. Two independent methods of hemispheric synchronization analysis are given, i.e. the first consisted in calculating statistical parameters for the entire signal registered and the second one in using wavelet-based feature statistics for different lengths of time windows, and then discussed. Perspectives of the system development are shown in the conclusions.

Streszczenie Niniejszy artykuł prezentuje kolejne podejście do budowy interfejsu mózg-komputer. W badaniach zastosowano bezprzewodowy system rejestracji fal mózgowych metodą encefalograficzną (EEG). Artykuł opisuje zaawansowane metody przetwarzania wstępnego sygnału. Ponadto badany jest wpływ różnych rodzajów filtracji na usuwanie niepożądanych artefaktów EOG. Nacisk w badaniach położony jest na filtracje pasmoprzepustową , wyodrębniającą poszczególne rytmy fal mózgowych z zarejestrowanego EEG. W szczególności badane są pasma fal alfa i beta, w celu rozgraniczenia czy synchronizacja półkul występuje.Badane są dwie niezależne metody parametryzacji sygnału: pierwsza wykorzystuje parametry statystyczne podczas gdy drugie podejście bada współczynniki dyskretnej transformaty falkowej. We wnioskach przedstawione są perspektywy rozwoju metody.

Słowa kluczowe elektroencefalografia, elektrookulogram, filtracja adaptacyjna, biofeedback, synchronizacja półkul mózgowych

Projekt badawczy TYPOSZEREG

Pozycja nr 318

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, K. Łopatka, B. Kunka, R. Rybacki, B. Kostek

Tytuł angielski Speech synthesis controlled by eye gazing

Tytuł polski Synteza mowy sterowana ruchami gałki ocznej

Konferencja 129th Convention of the Audio Engineering Society

Numer preprintu 8165

Numer

Wolumin

Strony

Miejsce konferencji San Francisco, USA

Data konferencji 4.11.2010- 7.11.2010

Abstract A method of communication based on eye gaze controlling is presented. Investigations of using gaze tracking have been carried out in various context applications. The solution proposed in the paper could be referred to as "talking by eyes" providing an innovative approach in the domain of speech synthesis. The application proposed is dedicated to disabled people, especially to persons in a so-called locked-in syndrome who cannot talk and move any part of their body. The paper describes a methodology of determining the fixation point on a computer screen. Then it presents an algorithm of concatenative speech synthesis used in the solution engineered. An analysis of working with the system is provided. Conclusions focusing on system characteristics are included.

Streszczenie Przedstawiono metodę komunikacji za pomocą ruchu gałek ocznych. Zaprezentowane rozwiązanie można rozumieć jako "mówienie oczami". Stanowi ono innowacyjne podejście do syntezy mowy. Zastosowanie jest przygotowane z myślą o ludziach niepełnosprawnych ruchowo, zwłaszcza dla osób z syndromem zamknięcia, którzy są niezdolni do mówienia i poruszania jakimikolwiek częściami ciał poza oczami. W referacie opisano metodę wyznaczania punktu fiksacji wzroku na ekranie komputera. Przy pomocy fiksacji wzroku wprowadzane są znaki, które są przekazywane modułowi syntezy mowy. Przedstawiono analizy jakości pracy z systemem. We wnioskach skupiono się na cechach systemu.

Słowa kluczowe synteza mowy, interfejsy multimodalne, śledzenie fiksacji wzroku (eye tracking)

Projekt badawczy TYPOSZEREG

Pozycja nr 319

Typ pozycji: patent

Autorzy A. Czyżewski, B. Kostek, J. Kotus

Tytuł polski System do identyfikacji i zwalczania szumów usznych

Numer patentu P.393167

Data zgłoszenia 6.12.2010

Uwagi Patent przyznany przez UPRP w dniu 02.08.2019

Streszczenie Sposób identyfikacji i zwalczania szumów usznych zawierający etap pomiaru charakterystyk słuchowych oraz parametrów odczuwanego szumu usznego za pomocą urządzenia komputerowego oraz etap odtwarzania sygnałów dźwiękowych w przenośnym urządzeniu fonicznym charakteryzuje się tym, że zmienia się płynnie parametry sygnału testowego w czasie rzeczywistym przesuwając znacznik w dwuwymiarowym układzie współrzędnych na ekranie dotykowym (ED) połączonym z urządzeniem komputerowym (K) aż do uzyskania dopasowania generowanego na tej podstawie sygnału testowego do odczuwanego przez jego odbiorcę (OD) szumu usznego i w oparciu o uzyskane parametry ustala się widmo sygnału tłumienia odpowiadającego danemu szumowi usznemu, po czym tworzy się filtr komplementarny do tego widma i zgodnie z jego charakterystyką tłumi się lub wzmacnia wybrane pasma częstotliwości w sygnałach plików dźwiękowych odtwarzanych w przenośnym urządzeniu fonicznym (1). System składa się z urządzenia komputerowego oraz połączonego z nim za pomocą interfejsu komunikacyjnego przenośnego urządzenia fonicznego i charakteryzuje się tym, że urządzenie komputerowe (K) posiada ekran dotykowy (ED) oraz aplikacje programowe (A) do regulowania za ich pomocą sygnałów dźwiękowych z generatorów i filtrów sygnałów testowych (G, F), a przenośne urządzenie foniczne (1) wyposażone jest w procesor sygnałowy (5) z programowalnymi środkami filtracji (6) w bloku dekodera plików dźwiękowych (3).

Słowa kluczowe Szumy uszne; identyfikacja szumów usznych; zwalaczanie szumów usznych

Projekt badawczy TYPOSZEREG

Pozycja nr 320

Typ pozycji: patent

Autorzy A. Czyżewski, B. Kostek, J. Kotus

Tytuł polski Układ do zwalczania szumów usznych

Numer patentu P.420164

Data zgłoszenia 6.12.2010

Uwagi Zgłoszenie wydzielone ze zgłoszenia P.393167

Streszczenie W zgłoszeniu ujawniono układ do identyfikacji szumów usznych. Zgłoszenie wydzielone ze zgłoszenia P.393167. Uzupełniono zastrzeżenia patentowe.

Słowa kluczowe szumy uszne, zwalczanie szumów usznych

Pozycja nr 321

Typ pozycji: patent

Autorzy A. Czyżewski, B. Kostek, J. Kotus

Tytuł polski Układ do identyfikacji szumów usznych

Numer patentu P.393167

Data zgłoszenia 6.12.2010

Streszczenie W zgłoszeniu ujawniono układ do identyfikacji szumów usznych. Uzupełniono zastrzeżenia patentowe.

Słowa kluczowe szum uszny, pomiar wrażenia słuchowego

Pozycja nr 322

Typ pozycji: referat konferencyjny

Autorzy B. Kunka, B. Kostek

Tytuł angielski Objectivization of audio-video correlation assessment experiments

Tytuł polski Obiektywizacja wyników eksperymentów korelacji słuchowo-wzrokowych

Konferencja 128. Konwencja AES 2010

Numer preprintu

Numer AES No. 8148

Wolumin

Strony

Miejsce konferencji Londyn, Anglia

Data konferencji 22.5.2010- 25.5.2010

Numer pozycji bibl. 21

Uwagi link do informacji o artykule: http://www.aes.org/e-lib/browse.cfm?elib=15444

Abstract The purpose of this paper is to present a new method of conducting an audio-visual correlation analysis employing a head-motion-free gaze tracking system. First, a review of related works in the domain of sound and vision correlation is presented. Then assumptions concerning audio-visual scene creation are shortly described. The objectivization process of carrying out correlation tests employing gaze-tracking system is outlined. The gaze tracking system developed at the Multimedia Systems Department is described, and its use for carrying out subjective tests is given. The results of subjective tests examining the relationship between video and audio associated with the video material are presented. Conclusions concerning the new methodology, as well as future work direction, are provided.

Streszczenie Celem niniejszego artykułu było przedstawienie nowej metodyki prowadzenia analizy badań korelacji wzrokowo-słuchowych z wykorzystaniem bezkontaktowego systemu śledzenia punktu fiksacji wzroku. W pierwszej kolejności przedstawiono prace badawcze związane z dziedziną korelacji wzrokowo-słuchowych. Następnie wymieniono założenia odnoszące się do aspektów realizacyjnych nagrywanej sceny. Zaprezentowano poszczególne etapy procesu obiektywizacji wyników przeprowadzonych eksperymentów korelacji wzrokowo-słuchowych.

Projekt badawczy TYPOSZEREG

Pozycja nr 323

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kunka, B. Kostek

Tytuł angielski EXPLOITING AUDIO-VISUAL CORRELATION BY MEANS OF GAZE TRACKING

Tytuł polski Badania korelacji słuchowo-wzrokowych z wykorzystaniem systemu śledzenia punktu fiksacji wzroku

Czasopismo International Journal of Computer Science and Applications

Wolumin 7

Numer czasopisma 3

Strony 104 - 123

Rok 2010

Numer pozycji bibl. 36

Uwagi link do artykułu: http://www.tmrfindia.org/ijcsa/v73.html

Abstract This paper presents a novel means for increasing audio-visual correlation analysis reliability. This is done based on gaze tracking technology engineered at the Multimedia Systems Department of the Gdansk University of Technology, Poland. In the paper, the past history and current research in the area of audio-visual perception analysis are shortly reviewed. Then the methodology employing gaze tracking is presented along with the results of audio-visual experiments performed. It is found that the methodology presented makes the study of audio-video correlation more reliable and objective.

Streszczenie W artykule przedstawiono nową metodę zwiększenia wiarygodności analizy korelacji wzrokowo-słuchowych. Dokonano tego w oparciu o technikę śledzenia wzroku widza opracowaną w Katedrze Systemów Multimedialnych Politechniki Gdańskiej. W artykule odniesiono się do wcześniejszych i obecnych badań prowadzonych w tej dziedzinie. Następnie przedstawiona została metodologia wykorzystania techniki śledzenia wzroku wraz z wynikami przeprowadzonych eksperymentów. Wykazano, że zaprezentowana metodologia prowadzi do obiektywizacji uzyskiwanych wyników badań korelacji wzrokowo-słuchowych.

Projekt badawczy TYPOSZEREG

Pozycja nr 324

Typ pozycji: raport

Autorzy B. Kunka, R. Rybacki, A. Czyżewski, B. Kostek

Tytuł polski Opracowanie aplikacji–przeglądarki wraz z nakładką umożliwiającą interakcję systemu śledzenia wzroku z treścią strony (wstępne koncepcje)

Numer raportu Raport 1

Rok 2010

Streszczenie Rozwój systemów służących do analizy punktów fiksacji wzroku użytkownika otwiera szerokie perspektywy zastosowania takich systemów w typowych zadaniach użytkowych takich jak korzystanie z aplikacji internetowych. System do śledzenia punktu fiksacji wzroku mógłby stanowić typowe rozszerzenia aplikacji przeglądarki internetowej i w ten sposób umożliwiać interakcję wzrokową z treścią strony. Rangowanie materiałów przy wyszukiwaniu mogłoby opierać się nie tylko na tradycyjnych policzalnych informacjach, takich jak liczba uruchomień materiału, liczba kliknięć, liczba ściągnięć, ale również na danych zgromadzonych przez analizę interakcji wzrokowej. Wpływ na ocenę atrakcyjności danego materiału miałby również np. czas fiksacji wzroku użytkowników na odpowiednich elementach strony.

Projekt badawczy SYNAT

Pozycja nr 325

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek

Tytuł angielski Long-term comparative evaluation of an acoustic climate in selected schools before and after the acoustic treatment

Czasopismo Archives of Acoustics

Wolumin 35

Numer czasopisma 4

Strony 551 - 564

Rok 2010

Abstract The results of long-term continuous noise measurements in two selected schools are presented in the paper. Noise characteristics were measured continuously there for approximately 16 months. Measurements started eight months prior to the acoustic treatment of the school corridors of both schools. An evaluation of the acoustic climates in both schools, before and after the acoustic treatment, was performed based on comparison of these two periods of continuous measurements. The autonomous noise monitoring stations, engineered at the Multimedia Systems Department of the Gdansk University of Technology were used for this purpose. Investigations of measured noise, especially its influence on hearing sense, assessed on ground of spectral analyses in critical bands, is discussed. Effects of occupational noise exposure, including the Temporary Threshold Shift simulation, are determined. The correlation of the above said measurement results with respective instantaneous noise levels is discussed, and concluding remarks are presented. Some additional indicators such as air pollution or video analysis aiming at the analysis of corridor occupancy are also measured. It should be remembered that excessive noise, or air pollution may be evidence of a dangerous event and may pose health risks.

Projekt badawczy SECURITY

Pozycja nr 326

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek

Tytuł angielski Long-term comparative evaluation of an acoustic climate in selected schools before and after the acoustic treatment

Konferencja Noise Control 2010

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wałbrzych, Polska

Data konferencji 6.6.2010- 9.6.2010

Abstract Results of the long-term continuous noise measurement in two schools are presented in the paper. Noise characteristics are measured continuously at selected locations for approximately 16 months. The autonomous noise monitoring stations, engineered at the Multimedia Systems Department of Gdansk University of Technology are used for this purpose. 8 months since the beginning of the measurements, the acoustic treatment of the corridors has been done. A comparative evaluation of acoustic climate in selected schools before and after the acoustic treatment is performed based on these two periods of the continuous measurements. Investigations of measured noise, particularly its influence on hearing, based on spectrum analysis in critical bands are discussed. Effects of occupational noise exposure, including the Temporary Threshold Shift simulation, are determined. The results of the above discussed measurements correlated with the instantaneous noise levels are also presented.

Projekt badawczy SECURITY

Pozycja nr 327

Typ pozycji: referat konferencyjny

Autorzy B. Kunka, R. Rybacki, K. Łopatka, A. Czyżewski, B. Kostek

Tytuł angielski VIRTUAL KEYBOARD CONTROLLED BY EYE GAZE EMPLOYING SPEECH SYNTHESIS

Tytuł polski WIRTUALNA KLAWIATURA STEROWANA WZROKIEM, WYKORZYSTUJĄCA SYNTEZĘ MOWY

Konferencja New Trends in Audio and Video (NTiAV) 2010

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Szczecin, Poland

Data konferencji 14.10.2010- 16.10.2010

Numer pozycji bibl. 11

Uwagi materiały konferencyjne dostępne na płycie CD

Abstract The article presents the speech synthesis integrated into the eye gaze tracking system. This approach can significantly improve the quality of life of physically disabled people who are unable to communicate. The virtual keyboard (QWERTY) is an interface which allows for entering the text for the speech synthesizer. First, this article describes a methodology of determining the fixation point on a computer screen. Then it presents an algorithm of concatenative speech synthesis used in the engineered solution. Both modules of the system described were created by the Multimedia Systems Department. The work of the entire system was verified in real conditions. Conclusions focusing on the usefulness of this approach are provided.

Streszczenie W artykule przedstawiono zastosowanie syntezy mowy w zintegrowanym w systemie śledzenia punktu fiksacji wzroku. Takie podejście w znaczący sposób może przyczynić się do poprawy jakości życia osób niepełnosprawnych fizycznie, które nie mają możliwości komunikowania się. Interfejsem umożliwiającym wprowadzanie do syntetyzera mowy tekstu jest wirtualna klawiatura z rozkładem klawiszy QWERTY. W pierwszej części artykułu przedstawiono sposób wyznaczania punktu fiksacji wzroku na monitorze komputerowym za pomocą stworzonego w Katedrze Systemów Multimedialnych systemu o nazwie Cyber-Oko. W drugiej części zaprezentowano algorytm syntezy mowy konkatenacyjnej, który jest wykorzystywany w zaproponowanym rozwiązaniu. Sprecyzowano odpowiednie wnioski na temat użyteczności takiego podejścia oraz zweryfikowano pracę systemu w warunkach rzeczywistych.

Projekt badawczy TYPOSZEREG

Pozycja nr 328

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, B. Kunka

Tytuł angielski Application of Gaze Tracking Technology to Quality of Experience Domain

Tytuł polski Zastosowanie techniki śledzenia wzroku w dziedzinie Quality of Experience

Konferencja MCSS 2010: IEEE International Conference on Multimedia Communications, Services and Security

Numer preprintu

Numer

Wolumin

Strony 134 - 139

Miejsce konferencji Kraków, Poland

Data konferencji 6.5.2010- 7.5.2010

Uwagi ISBN 978-83-88309-92-2

Abstract A new methodological approach to study subjective assessment results employing gaze tracking technology is shown. Notions of Human-Computer Interaction (HCI) and Quality of Experience (QoE) are shortly introduced in the context of their common application. Then, the gaze tracking system developed at the Multimedia Systems Department (MSD) of Gdansk University of Technology (GUT) is presented. A series of audiovisual subjective tests are undertaken and their results are shown against gaze tracking-based observation. Subjective test conditions and experimental procedure are described. Objective measures based on heat maps and gaze plots are proposed and their utility is assessed in the context of correlation between subjective assessment and objective results.

Streszczenie W artykule przedstawiono nową metodologię oceny wyników badań subiektywnych z wykorzystaniem systemu śledzenia wzroku. W skrócie wyjaśniono pojęcia "Human-Computer Interaction" i "Quality of Experience". Następnie przedstawiono system śledzenia wzroku opracowany w Katedrze Systemów Multimedialnych Politechniki Gdańskiej. Przeprowadzono serię badań subiektywnych z wykorzystaniem materiału wizyjno-fonicznego i zestawiono je z wnioskami obserwacji opartej na śledzeniu wzroku badanych. Opisano warunki badań subiektywnych, jak również procedurę prowadzonego eksperymentu. Zaproponowano obiektywne wskaźniki oparte na mapach ciepła i mapach przejść oraz skomentowano ich wykorzystanie w kontekście związku pomiędzy oceną subiektywną a wynikami obiektywnymi.

Projekt badawczy INDECT

Pozycja nr 329

Typ pozycji: książka

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Utilization of Fuzzy Rules in Computer Character Animation

Tytuł polski Wykorzystanie reguł rozmytych w animacji komputerowej

Wydawca Springer-Verlag Berlin Heidelberg

Strony 103 - 118

Rok 2010

Uwagi rozdział w książce G.A. Tsihrintzis et al. (Eds.): Multimedia Services in Inteligent Environments

Abstract The chapter presents a method for automatic enhancement of computer character animation utilizing fuzzy inference. First the user designs a prototype version of animation, with keyframes only for important poses, roughly describing the action. Then animation is enriched with new motion phases calculated by the fuzzy inference system using descriptors given by the user. Various degrees of motion fluency and naturalness are possible to achieve. The proposed algorithm of the animation enrichment based on fuzzy description is thoroughly presented. Animation parameterization is presented, new parameters are designed, and the relation between the coefficients proposed and subjective features of motion are established. The first part of the processing consists in creating fuzzy rules for the algorithm based on results of subjective evaluation of the animated movement. The second one utilizes input descriptors for new motion phase calculation, which are finally added to the animation. Quality and fluidity increase of the obtained animation are verified by subjective evaluation. Efficiency of the algorithm proposed is discussed and creation of the animation with the system engineered is compared with animation prepared by utilizing typical computer animation methods.

Projekt badawczy DS

Pozycja nr 330

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Szczuko, B. Kostek, A. Czyżewski

Tytuł angielski Comparison between natural movements and automatically generated animated motion employing motion capture and fuzzy logic techniques

Tytuł polski Porównanie pomiędzy ruchem naturalnym w animacji komputerowej a generowanym automatycznie z wykorzystaniem przechwytywania ruchu i logiki rozmytej

Czasopismo J. Expert Systems

Wolumin

Numer czasopisma

Strony

Rok 2010

Uwagi Po recenzjach i poprawkach (do uzupełnienia po wydaniu)

Abstract The paper describes a new method for automatic generation of animated motion with quality comparable to natural motion. First the reference motion data are gathered utilizing a motion capture system. Then these data are reduced and only main poses of the action are left. The resulting motion is simplified and its quality is considerably decreased. Then, utilizing the automatic motion enhancement system, ANIMATOR, a new version of the action is generated, based on input poses and subjective descriptors given by the user. Various degrees of motion fluency and naturalness are possible to achieve this way. The proposed algorithm of the animation enrichment is based on fuzzy description of motion parameters and motion subjective features. The first step consists in creating fuzzy rules for the algorithm based on subjective evaluation of the animated movement. The second stage utilizes input descriptors for the new motion phases calculation, which are finally added to the animation. It is assumed that such processing increases naturalness and quality of motion, and this is verified by subjective evaluation tests. Finally a comparison between the original and the recreated motion is performed. Scores obtained in evaluation tests suggest that a substantial increase in quality between reduced and recreated versions is obtained, matching the original one. The method for motion enhancement is useful for automatic motion generation and can be paired with motion data reduction procedure for regaining naturalness. Moreover the reduced version can easily be edited in the ANIMATOR system, and in this way a new action can be created

Streszczenie Referat opisuje nową metodę automatycznego generowania animowanego ruchu postaci o jakości porównywalnej z rzeczywistym ruchem człowieka. W pierwszym etapie gromadzone są dane referencyjne rzeczywistego, przechwyconego ruchu (wykorzystany system Motion Capture), następnie dane te są poddawane redukcji do głównych póz składających się na akcję aktora. Wynikowy ruch jest uproszczony i pozbawiony cech indywidualnych osoby i jego subiektywna jakość jest znacząco obniżona. Następnie w celu poprawy jakości wykorzystywany jest autorski system wzbogacania animowanego ruchu ANIMATOR i, w oparciu o pozostałe pozy oraz parametry wejściowe, generowana jest nowa wersja ruchu. Użytkownik ma możliwość modyfikować subiektywną płynność i naturalność wynikowego ruchu. Zastosowane przetwarzanie wykorzystuje logikę rozmytą i rozmyte parametry opisu subiektywnych cech ruchu. Wynikowe animacje porównywane są w testach oceny subiektywnej z ruchem rzeczywistych aktorów. Uzyskane wyniki wskazują na istotną poprawę jakości pomiędzy animacją zredukowaną do samych póz, a także finalną jakość zbliżoną do nieredukowanego oryginału. Opracowana metoda może znaleźć zastosowanie do automatycznego generowania wielu wersji uproszczonego ruchu. Ponadto system ANIMATOR dostarcza narzędzi intuicyjnej i efektywnej edycji ruchu uproszczonego, na bazie którego wygenerowane mogą być nowe akcje o wysokiej jakości subiektywnej.

Projekt badawczy DS

Pozycja nr 331

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Visually supported analysis of music

Tytuł polski Wykorzystanie systemu fiksacji wzroku w analizach korelacji wzrokowo-słuchowej

Konferencja 2nd Pan-American/Iberian Meeting on Acoustics, Acoustical Soc. of America

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji C, Mexico

Data konferencji 15.11.2010- 19.11.2010

Uwagi referat zaproszony

Abstract Subjective tests are highly regarded means for determining musical sound timbre, sound and music quality, audiovisual correlations, etc. The multimedia development created a new domain of interests, namely, quality of experience, in which subjective evaluation has proven to be one of, if not, the most important tool. It should be pointed out that experience is not only subjective but also context dependent. In addition to the external factors related to the environment aspects, perception and cognitive state clearly play a critical role in the context. Despite significant advances in objective measuring methods, the only way to evaluate subjective audio video signal quality is to acquire opinions of subjects, and then to quantify resulted choices. Many multimedia applications stimulated new methods of subjective evaluation. Also, audiovisual perception evaluation requires a new methodological approach, which can be fulfilled while employing gaze tracking technology. Gaze tracking based experiments consist in determining the part of the screen that the user is looking at and in superimposing it against an audio video content. This method allows for measuring the attention and performance of the subject, thus making the subjective tests more reliable. The proposed methodology based on the gaze tracking technique applied to audiovisual correlation tests will be shown.

Streszczenie Słowa kluczowe: korelacje wzrokowo-słuchowe, system fiksacji wzroku, testy subiektywne, analizy muzyczne W referacie zaprezentowano nowe możliwości prowadzenia eksperymentu w dziedzinie subiektywnej oceny barwy dźwięku, korelacji wzrokowo-słuchowych. W tym celu wykorzystano system fiksacji wzroku, który poprzez zapis informacji o aktywności wzrokowej osoby badanej pozwala na zobiektywizowanie wyników badań subiektywnych. Dodatkowo możliwa jest ocena koncentracji osoby badanej w trakcie prowadzenia eksperymentu.

Pozycja nr 332

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Human-Computer Analysis of Musical Sound Mixtures

Konferencja International Symposium on Music Acoustics

Numer preprintu

Numer

Wolumin

Strony 25

Miejsce konferencji Vienna, Austria

Data konferencji 19.9.2010- 21.9.2010

Uwagi referat zaproszony

Abstract Effectiveness of blind separation process of musical sounds contained in sound mixtures is examined utilizing subjective tests and the machine-learning approach. First, evaluation of the separation results is performed based on the perceptual assessment and analysis of the energy-based error between original signals used for mixing and separated ones. Then, an alternative approach to objective evaluation is introduced and discussed. Artificial Neural Networks are employed in the solution proposed to recognize separated sounds. The separation process utilizes sinusoidal modeling approach. The frequency domain representation is sampled by non-constant frequency complex exponentials and therefore may robustly represent long and closely spaced in frequency domain sounds with significant pitch variations. Detection of the sinusoidal content is performed, amplitude and phase tracks of the sounds contained in the mixture are estimated based on the short term time Fourier spectra. Also an extension to existing separation methods is shown. In this case harmonic partials are retrieved directly from the frequency domain. Signals in the mixture are represented then as a sum of sinusoids of time varying frequencies, phases and amplitudes. Four separation algorithms are presented, their performance with regard to the new approach to objective evaluation is assessed, results are discussed and conclusions derived.

Streszczenie Słowa kluczowe: separacja sygnałów muzycznych, sztuczne sieci neuronowe, automatyczne rozpoznawanie dźwięków mzuycznych W referacie przedstawiono badanie efektywności procesu separacji dźwięków muzycznych ze zmiksowanych sygnałów. Zaprezentowano algorytmy separacji i syntezy dźwięku po operacji separacji. Przedstawiono metodykę badania efektywności separacji z wykorzystaniem sztucznych sieci neuronowych.

Pozycja nr 333

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, Ł. Kania

Tytuł polski Automatyczn klasyfikacja gatunków muzycznych

Konferencja Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kraków, Polska

Data konferencji 16.6.2010- 18.6.2010

Uwagi Przegląd Telekomunikacyjny, Wiadomości Telekomunikacyjne, 6, 2010

Streszczenie Celem referatu jest dokonanie krótkiego przeglądu stanu badań w dziedzinie wyszukiwania i klasyfikacji gatunków muzycznych. Ponadto przedstawiony zostanie eksperyment polegający na klasyfikacji wybranych gatunków muzycznych z wykorzystaniem przykładowego klasyfikatora. W pierwszej kolejności zaprezentowano proces selekcji cech dystynktywnych. Opracowany wektor cech został następnie poddany testom klasyfikacji na zamkniętym zbiorze próbek utworów muzycznych. Uzyskane wyniki potwierdzają potrzebę optymalizacji wektora cech w procesie automatycznego rozpoznawania gatunków muzycznych. Słowa kluczowe: informatyka muzyczna, automatyczne wyszukiwanie informacji muzycznej, kalsyfikacja gatunków muzycznych, standard MPEG 7

Pozycja nr 334

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Szwarc

Tytuł angielski Railway noise problems in Poland

Tytuł polski Problematyka hałasu kolejowego w Polsce

Konferencja 15th International Conference on Noise Control, Noise Control '10

Numer preprintu

Numer

Wolumin

Strony 1 - 27

Miejsce konferencji Wałbrzych-Książ, Polska

Data konferencji 6.6.2010- 9.9.2010

Uwagi Materiały konferencyjne w formie CD-ROMu

Abstract In the year 2002 Directive 2002/49/EC relating to the assessment and management of environmental noise was ratified. Under this directive, all European countries are obliged to model their environmental noise levels in heavily populated areas. Some countries have their own national methods to predict noise but most of them have not created one yet. The recommendation for countries that do not have their own model is to use an interim method. For railways it is suggested to use the Dutch SRM II scheme. In the paper, aside from the Dutch model three other national methods are described and discussed. Moreover, discrepancies between HARMONOISE and IMAGINE projects are analyzed. The results and comparison with national methods are also presented in this paper.

Streszczenie Celem referatu jest przedstawienie zagadnień związanych z hałasem kolejowym. W pierwszej kolejności podano przegląd badań związanych z hałasem kolejowym, które są prowadzone w polskich ośrodkach i instytucjach naukowych. Przytoczono również główne modele hałasu kolejowego zawarte w dyrektywach europejskich (projekty HARMONOISE i IMAGINE). Dodatkowo zaimplementowano wybrane modele hałasu kolejowego dla warunków polskiego taboru kolejowego (w analizach odniesiono się do pomiarów przeprowadzonych w Gdańsku), a następnie przeprowadzono dogłębne porównania wyników pomiarów i wyników uzyskanych w procesie modelowania. Słowa kluczowe: hałas kolejowy, model hałasu kolejowego, projekty HARMONOISE, IMAGINE, predykcja hałasu kolejowego

Pozycja nr 335

Typ pozycji: książka

Autorzy M. Dziubiński, B. Kostek

Tytuł angielski Evaluation of the separation algorithm performance employing ANNs

Wydawca Springer Verlag, Berlin, Heidelberg, Chapter in Advances in Intelligent and Soft Computing, 80

Strony 27 - 37

Rok 2010

Uwagi słowa kluczowe: informatyka muzyczna, rozpoznawanie muzyki, separacja dźwięków muzycznych, sztuczne sieci neuronowe, testy subiektywne

Abstract The objective of the presented study is to show that it is possible to effectively separate harmonic sounds from musical sound mixtures for the purpose of automatic sounds recognition, without any prior knowledge of the mixed instruments. It has also been shown that a properly trained ANN enables to reliably validate separation results of mixed musical instrument sounds, and the validation corresponds with subjective perception of the separated sounds quality. A comparison between the results obtained with the use of the ANN-based recognition, subjective evaluation of the separation performance and the energy-based evaluation is provided.

Streszczenie Celem niniejszego rozdziału jest przedstawienie metodyki separacji dźwięków muzycznych bez informacji a priori o dźwiękach zawartych w muzycznym miksie. W pracy pokazano, że prawidłowo wytrenowana sztuczna sieć neuronowa (SNN)jest w stanie w sposób automatyczny poprawnie sklasyfikować dźwięki zawarte w zmiksowanym sygnale. Skuteczność klasyfikacji SNN jest porównywalna z oceną subiektywną ekspertów. słowa kluczowe: informatyka muzyczna, rozpoznawanie muzyki, separacja dźwięków muzycznych, sztuczne sieci neuronowe, testy subiektywne

Pozycja nr 336

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Sitek

Tytuł angielski Musical Recording In A Stereo Surround System

Tytuł polski Nagranie formy muzycznej w systemie stereofonii dookólnej

Konferencja XIII Sympozjum Nowości w Technice Audio i Wideo, NTIAV 2010

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Szczecin, Polska

Data konferencji 14.10.2010- 16.10.2010

Uwagi Streszczenie artykułu znalazło się w informatorze. Cały artykuł zamieszczono na płycie załączonej do informatora.

Abstract The aim of this paper is to present recording of a gospel choir together with the accompanying band in a stereo surround system. First, the multichannel microphone techniques used in the recording are described. Then, the assumptions and details of music recording in Radio Gdansk studio are provided. Also, subjective quality evaluation is conducted and on the basis of this evaluation the best rated multichannel technique is indicated.

Streszczenie Celem niniejszego artykułu jest omówienie realizacji nagrania chóru gospelowego wraz z towarzyszącym mu zespołem w systemie stereofonii dookólnej 5.1. W pierwszej kolejności przedstawiono techniki mikrofonowe użyte podczas nagrania. Następnie omówiono szczegóły związane z jego realizacją w studiu Radia Gdańsk. Ponadto przeprowadzono testy subiektywne z udziałem grupy ekspertów i na tej podstawie wybrano najlepiej ocenianą technikę wielokanałową.

Pozycja nr 337

Typ pozycji: książka

Autorzy A. Czyżewski, J. Kotus, M. Szczodrak, B. Kostek, P. Dalka

Tytuł polski Laureaci konkursu - Cudze chwalicie, swego nie znacie - Promocja osiągnięć nauki polskiej

Wydawca Innovatio Press

Strony 85 - 102

Rok 2010

Uwagi Nagroda Kapituły Konkursu - Nauki Techniczne - Program Operacyjny Kapitał Ludzki, IV, 4.2

Streszczenie Celem projektu Multimedialny System Monitorowania Hałasu zrealizowanego w Politechnice Gdańskiej było opracowanie teleinformatycznego systemu monitorowania klimatu akustycznego, uwzględniając w szczególnym stopniu obrazowanie wpływu zagrożeń hałasowych na słuch. Rozwiązania wcześniej dostępne na rynku cechują wysokie koszty oraz ograniczone możliwości rozbudowy o nowe funkcje analizy sygnału akustycznego, ograniczenia technologiczne w zakresie transmisji danych, brak rozwiązań systemowych pozwalających na dynamiczne modelowanie hałasu na dużych obszarach. Obecny system pomiarowy został zaprojektowany w taki sposób, aby można było pzy jego zastosowaniu skompensować powyżej wspomniane niedobory oraz by zapewniał on maksymalną funkcjonalność przy stosunkowo niskich kosztach powielania.

Pozycja nr 338

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Kupryjanow, B. Kostek

Tytuł angielski ROZPOZNAWANIE RUCHU RĄK ORAZ CHODU PACJENTÓW NA PODSTAWIE ANALIZY SYGNAŁÓW POCHODZĄCYCH Z TRÓJOSIOWYCH CZUJNIKÓW PRZYSPIESZENIA

Tytuł polski Hand movement and walking activity recognition using acceleration signal analysis captured from the 3-axis acceleration sensors

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin 19

Numer czasopisma 8/2010

Strony 215 - 218

Rok 2010

Abstract W pracy przedstawiono eksperymenty związane z automatyczną klasyfikacją i rozpoznawaniem aktywności pacjentów z chorobą Parkinsona. W szczególności opisano algorytmy, mające na celu rozpoznawanie dwóch kategorii ruchu: ruchu rąk oraz chodu. Aktywności te wykrywane są na podstawie analizy sygnałów pochodzących z trójosiowych akcelerometrów umieszczonych na ciele osoby badanej.

Streszczenie This papers presents two algorithms designed for human activity recognition. Those algorithms were created as a part of the PERFORM 24 h monitoring system. In the first part of paper signal classification methodology as well as algorithm description are shown. In the experimental part the recognition result accuracy is discussed.

Pozycja nr 339

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski A new methodological approach to the noise threat evaluation based on the selected physiological properties of the human hearing system

Tytuł polski Nowe metodologiczne podejście w ocenie zagrożeń hałasem oparte na wybranych fizjologicznych właściwościach słuchu

Konferencja 126th AES Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Munich, Germany

Data konferencji 7.5.2009- 10.5.2009

Abstract A new way of assessment of noise-induced harmful effects on human hearing system is presented in the paper. The method takes into consideration properties of the selected physiological human hearing system. On the basis of the hearing examinations and noise measurements results and psychoacoustical noise dosimeter performance the new indicators of the noise harmfulness were proposed. The evaluation of the proposed indicators were conducted on the basis of hearing examination in the real noise exposure situations and also on the basis of the simulation results using standard test signals (such as: white, pink and brown noise). The performed analysis and obtained results confirmed the practical usefulness and correctness of the proposed indicators.

Pozycja nr 340

Typ pozycji: referat konferencyjny

Autorzy P. Maziewski, P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski An Intuitive Graphical User Interface for the Parkinson’s Disease Patients

Tytuł polski Intuicyjny interfejs graficzny dla osób z chorobą Parkinsona

Konferencja 4th International IEEE EMBS Conference on Neural Engineering

Numer preprintu

Numer

Wolumin

Strony 14 - 17

Miejsce konferencji Antalya, Turcja

Data konferencji 29.4.2009- 2.5.2009

Abstract In this paper a discussion on the design and development of the graphical user interface (GUI) dedicated to Parkinson’s Disease (PD) patients is presented. The interface is intended for a group of PD patients with less severe motor symptoms, who are living at their home independently or with help of a caregiver. The GUI is designed to enable an interaction for the non-computer literate PD patients with a computer-based system. The system will allow for objectively recording the patient diaries, self assessments, taken medication confirmations and other features important for the diagnosis. This will enable physicians to prepare more accurate evaluation and better diagnostic decisions.

Streszczenie W referacie przedstawiono projekt i przykładowe wdrożenie graficznego interesu użytkownika przeznaczonego dla osób z chorobą Parkinsona. Interfejs przeznaczony jest dla osób w mniej zaawansowanym stadium choroby – z mniejsza ilością symptomów, żyjących samodzielnie lub korzystających z pomocy opiekuna. Interfejs zaprojektowano w celu umożliwieni interakcji z komputerem osób nieposiadających wcześniejszych doświadczeń w pracy z tego typu urządzeniem. Interfejs pozwala na obiektywną rejestrację dzienniczków pacjenta, jego samoocen, potwierdzeń przyjęcia lekarstw jak i wielu innych danych potrzebnych w celu poprawnej diagnozy. Dzięki wynikom uzyskiwanym za pomocą interfejsu, lekarz prowadzący może opracować lepszą – bardziej dokładną – terapię.

Pozycja nr 341

Typ pozycji: referat konferencyjny

Autorzy P. Żwan, B. Kostek

Tytuł angielski Speech analysis in the context of voice disorders

Tytuł polski Analiza mowy w kontekście zaburzeń głosowych

Konferencja The 16th International Congress on Sound and Vibration

Numer preprintu

Numer

Wolumin

Strony 193 - 193

Miejsce konferencji Kraków, Polska

Data konferencji 5.7.2009- 9.7.2009

Uwagi materiały elektroniczne

Abstract The parameterization of speech allows for its objective analysis in the real time. In a rich literature related to this topic the individual and semantic speech features are presented widely. However, the automatic speech analysis can also be performed in a deeper context. It can lead to the extraction of features related to the correct and incorrect functioning of the voice organ. This possibility can be used in two main fields: in the automatic detection of voice pathologies and for the prevention of voice disorders by allowing a controlled voice training. The prevention of voice disorders is particularly important within the group of people who use their voice professionally in their work where the correct speech emission is a necessary condition for a sane and sufficient using of the voice organ. In the paper quality of untrained and trained speakers (represented by the actors and the vocalists) are compared and it is proved that trained speakers owe some qualities characteristic for a trained singing voice. Moreover, an exercise based on a vocal training is proposed commonly with a set of parameters allowing the observation of the correctness of the exercise performance. The results are shown and the conclusions are derived. In the summary a plan of further experiments in the field of the monitoring of voice exercises is discussed.

Streszczenie W referacie przedstawiono metody parametryzacji sygnaŁu mowy w zastosowaniu do automatycznego rozpoznawania wad emisyjnych. Przedstawiono analizę statystyczną parametrów na zebranej bazie głosów oraz zastosowanie parametryzacji do automatycznego monitorowania emisyjnych ćwiczeń głosowych.

Pozycja nr 342

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, H. Skarżyński, Ł. Kosikowski, P. Odya, B. Kostek, G. Szwoch

Tytuł polski Mobline multimedialne systemy do badań przesiewowych słuchu u mowy na urządzenia klasy PDA

Konferencja XVI giełda polskich wynalazków nagrodzonych na światowych targach wynalazczości w 2008 roku

Numer preprintu

Numer

Wolumin

Strony 58 - 58

Miejsce konferencji Warszawa, Polska

Data konferencji 9.3.2009- 15.3.2009

Streszczenie Program do diagnozy słuchu zawiera ankietę, w której pytania są podobne do tych zadawanych przez audiologa podczas typowej wizyty kontrolnej. Dodatkowo użytkownik ma możliwość wykonania dwóch testów. Pierwszy z nich bazuje na audiometrii tonalnej. Drugi oparty jest na audiometrii słownej w szumie. Po wypełnieniu ankiety i wykonaniu ćwiczeń, system ekspercki automatycznie podejmuje decyzję o tym, czy badana osoba nie ma problemów ze słuchem lub czy występują u niej zaburzenia słuchu i konieczna jest wizyta u audiologa. Program do diagnozy i terapii mowy zawiera ankietę, w której pytania są podobne do tych zadawanych przez foniatrę podczas typowej wizyty kontrolnej. System zawiera szereg interaktywnych testów dźwiękowych, umożliwiających detekcję potencjalnych dysfunkcji głosu i mowy m.in. ocenę słuchu fonemowego, ocenę motoryki narządów mowy, ocenę artykulacji, słownictwa i gramatyki. Na podstawie uzyskanych wyników system automatycznie generuje wynik. Cechami charakterystycznymi obu systemów jest duża mobilność oraz wyjątkowa prostota testów przy jednoczesnym zachowaniu wysokiej wiarygodności uzyskiwanych wyników.

Słowa kluczowe BADANIE I TERAPIA SŁUCHU, BADANIE I TERAPIA MOWY, SŁUCH, MOWA

Pozycja nr 343

Typ pozycji: referat konferencyjny

Autorzy B. Kunka, B. Kostek

Tytuł angielski An New Method of Audio-Visual Correlation Analysis

Tytuł polski Nowe podejcie do badan korelacji suchowo-wzrokowych

Konferencja International Multiconference on Computer Science and Information Technology

Numer preprintu

Numer

Wolumin 4

Strony 497 - 502

Miejsce konferencji Mragowo, Polska

Data konferencji 12.10.2009- 14.10.2009

Numer pozycji bibl. 26

Uwagi wersja elektroniczna

Abstract This paper presents a new methodology of conducting the audio-visual correlation analysis employing the gaze tracking system. Interaction between two perceptual modalities, seeing and hearing, their interaction and mutual reinforcement in a complex relationship was a subject of many research studies. Earlier stage of the carried out experiments at the Multimedia Systems Department (MSD) showed that there exists a relationship between perception of video presented in the screen and accompanying audio signals, both stereo and spatial. These results were based on subjective tests. Applying the gaze tracking system to the subjective domain may be a step towards objectivization of results obtained during such tests. In the paper, first a short review of audio-visual correlation examination methods is presented. Then, a gaze tracking system engineered at the MSD is shortly presented. The system calibration is also shown. Assumptions of the preliminary experiments are outlined, and the realization of some preliminary tests is described. Conclusions concerning the objective methodology of audio-visual correlation analysis proposed are also included.

Streszczenie W artykule przedstawiono nową metodologię prowadzenia badań korelacji wzrokowo-słuchowych z wykorzystaniem systemu śledzenia punktu fiksacji wzroku. Przedmiotem przeprowadzonych badań były wzajemne interakcje pomiędzy wzrokiem i słuchem. Wcześniejszy etap prowadzonych w Katedrze Systemów Multimedialnych eksperymentów wskazywał, że istnieje związek pomiędzy percepcją prezentowanej na ekranie treści wizyjnej a towarzyszącym jej dźwiękiem, odtwarzanym zarówno w systemie stereofonii dwu- i wielokanałowej. Wspomniane badania były oparte na subiektywnych ocenach osób badanych. Zastosowanie systemu śledzenia wzroku w tego typu badaniach może być krokiem w kierunku zobiektywizowania wyników uzyskiwanych w drodze prowadzonych eksperymentów.

Słowa kluczowe korelacje wzrokowo-słuchowe, korelacje słuchowo-wzrokowe, system śledzenia punktu fiksacji wzroku, wpływ obrazu na percepcję dźwięku

Projekt badawczy TYPOSZEREG

Pozycja nr 344

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek

Tytuł angielski Human-Computer Interaction Approach Applied to the Multimedia System of Polysensory Integration

Tytuł polski Multimedialny system integracji polisensorycznej opracowany zgodnie z koncepcją HCI

Konferencja KES IIMSS 2009

Numer preprintu

Numer

Wolumin 226/2009

Strony 265 - 274

Miejsce konferencji Mogliano Veneto, Włochy

Data konferencji 16.7.2009- 17.7.2009

Uwagi in Book: New Directions in Intelligent Interactive Multimedia Systems and Services - 2

Abstract In the paper an approach of utilizing an interaction between the human and computer in a therapy of dyslexia and other sensory disorders is presented. Bakker's neuropsychological concept of dyslexia along with therapy methods are reviewed in the context of the Multimedia System of Polysensory Integration, proposed at the Multimedia Systems Department of Gdansk Univ. of Technology. The system is presented along with the training methods proposed. Three therapeutic exercises, stimulating respectively left hemisphere only, right hemisphere only, and both hemispheres simultaneously are described. Their utility in a therapy of disorders such as dyslexia, ADD/ADHD (Attention Deficit Disorder/Attention Deficit Hyperactivity Disorder) and lateralization problems is discussed in the context of human brain functioning. Also, their implementation process in the Multimedia System of Polysensory Integration is provided and a sample of tests carried out in a primary school is described.

Streszczenie W rozdziale przedstawiono sposób interakcji pomiędzy użytkownikiem a komputerem zastosowanej do terapii dysleksji i innych zaburzeń sensorycznych. W kontekście opracowanego Multimedialnego Systemu Integracji Polisensorycznej przedstawiono neuropsychologiczną koncepcję dysleksji według Dirka Bakkera wraz z metodami terapii. W zaproponowanym systemie zawarto trzy ćwiczenia terapeutyczne, stymulujące tylko lewą półkulę mózgową, tylko prawą półkulę lub obie półkule jednocześnie. Przydatność ćwiczeń w terapii zaburzeń takich, jak dysleksja, ADD/ADHD, problemy lateralizacji przedyskutowano w kontekście funkcjonowania mózgu człowieka. W rozdziale zawarto wyniki wstępnych testów systemu przeprowadzonych z udziałem dzieci w wieku szkolnym.

Słowa kluczowe system integracji polisensorycznej, trening lateralizacji, dysleksja, ADD, ADHD

Pozycja nr 345

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek, A. Czyżewski, P. Odya

Tytuł angielski Gesture Recognition Framework for Multimedia Content Viewer Controlling

Tytuł polski Środowisko rozpoznawania gestów dla zagadnienia przeglądania treści multimedialnych

Konferencja SPA 2009 Poznań

Numer preprintu

Numer

Wolumin

Strony 100 - 104

Miejsce konferencji Poznań, Polska

Data konferencji 24.9.2009- 26.9.2009

Abstract In the paper a system for controlling a multimedia content viewer by hand gestures is presented. First, selected methods used for gesture recognition are described. Two different application cases of the system, i.e. for multimedia presentation purposes and for multimedia content viewing are outlined. Moreover, a proposal of improvement of the system combining these approaches is also given. The system work cycle is reviewed. The results of the system tests are provided.

Streszczenie W referacie przedstawiono system obsługi za pomocą gestów rąk przeglądarek treści multimedialnych. W pierwszej części przedstawiono wybrane metody rozpoznawania gestów. Przedstawiono dwa różne zastosowania systemu, tj. do prowadzenia prezentacji multimedialnych oraz do przeglądania treści multimedialnych. Omówiony został cykl pracy systemu. W końcowej części przedstawiono wyniki testów systemu.

Słowa kluczowe rozpoznawanie gestów, przeglądarki treści multimedialnych, cykl pracy systemu

Projekt badawczy TYPOSZEREG

Pozycja nr 346

Typ pozycji: referat konferencyjny

Autorzy B. Kunka, A. Czyżewski, B. Kostek

Tytuł angielski Concentration tests. An application of gaze tracker to concentration exercises

Tytuł polski Zastosowanie systemu sledzenia punktu fiksacji wzroku w badaniach koncentracji uwagi

Konferencja 1st International Conference on Computer Supported Education

Numer preprintu

Numer

Wolumin

Strony 66 - 66

Miejsce konferencji Lizbona, Portugalia

Data konferencji 23.3.2009- 26.3.2009

Numer pozycji bibl. 8

Uwagi Dostepne streszczenie w Book of Abstracts

Abstract This paper presents different methods of concentration tests. Some existing methods are reviewed and more thoroughly described. The gaze tracking system developed at the Multimedia Systems Department of the Gdańsk University of Technology is presented and its principle of working is explained. Performed tests of the gaze tracker system show that it could make a useful system for concentration exercises. Some selected applications of the gaze tracker to concentration tests are also discussed in the paper.

Streszczenie W artykule zostały przedstawione różne podejścia badania koncentracji uwagi. Wybrane istniejące metody zostały dokładniej opisane. W artykule przedstawiono system śledzenia punktu fiksacji wzroku opracowany w Katedrze Systemów Multimedialnych Politechniki Gdańskiej. Badania przeprowadzone z wykorzystaniem systemu śledzenia wzroku potwierdzają jego użyteczność w prowadzeniu tego typu eksperymentów.

Słowa kluczowe koncentracja uwagi, badanie koncentracji uwagi, system śledzenia wzroku

Pozycja nr 347

Typ pozycji: referat konferencyjny

Autorzy B. Kunka, B. Kostek

Tytuł angielski Non-intrusive infrared-free eye tracking method

Tytuł polski Sledzenie punktu fiksacji wzroku na ekranie monitora bez stosowania oswietlenia podczerwonego

Konferencja Signal Processing Algorithms, Architectures, Arrangements and Applications SPA 2009

Numer preprintu

Numer

Wolumin

Strony 105 - 109

Miejsce konferencji Poznań, Polska

Data konferencji 24.9.2009- 26.9.2009

Numer pozycji bibl. 13

Abstract In the paper a technique of eye tracking based on visible light is presented. The approach described does not require an additional hardware equipment used in the infrared eye tracking system. First, examples of existing eye tracking techniques were presented. Then, the proposed algorithm of image processing and the process of determining the eye position are described. The engineered eye tracking application was tested and the results of these tests are presented.

Streszczenie W artykule przedstawiona została technika śledzenia punktu fiksacji wzroku zoptymalizowana dla światła widzialnego. Opisane podejście nie wymaga dodatkowego elementów warstwy sprzętowej systemu, jak ma to miejsce w przypadku systemów śledzenia wzroku pracujących w zakresie podczerwieni. W pierwszej kolejności zaprezentowano przykłady istniejących systemów tego typu. Następnie przedstawiono zaproponowany algorytm przetwarzania obrazu oraz wyznaczania punktu fiksacji wzroku na podstawie wyekstrahowanych cech przetwarzanego obrazu.

Słowa kluczowe śledzenie wzroku, system śledzenia wzroku, system śledzenia wzroku niezależny od podczerwieni

Pozycja nr 348

Typ pozycji: referat konferencyjny

Autorzy A. Andrzejewski, B. Kunka, B. Kostek

Tytuł angielski The postproduction of movie with surround sound

Tytuł polski Postprodukcja nagrania wizyjnego z dzwiekiem dookolnym

Konferencja XIII MIĘDZYNARODOWE SYMPOZJUM INŻYNIERII I REŻYSERII DŹWIĘKU

Numer preprintu

Numer

Wolumin

Strony 22 - 28

Miejsce konferencji Warszawa, Polska

Data konferencji 16.10.2009- 18.10.2009

Numer pozycji bibl. 17

Abstract One of the aims of this paper is to present issues related to audio-video correlation. This is presented on the basis of a short film realization employing surround microphone techniques. First, some related works in the domain of sound and vision correlation are presented. Then assumptions concerning scene creation related to both audio and video are shortly described. Another objective is to discuss results of subjective tests performed in order to examine the relationship between high definition video and surround sound associated with video. Conclusions concerning several hypotheses checked in these tests are provided, as well as future work direction.

Streszczenie Celem niniejszej pracy jest przedstawienie zagadnień związanych z wpływem obrazu na percepcję dźwięku. Zagadnienia te mieszczą się w obrębie badań zajmujących się korelacjami wzrokowo-słuchowymi. W pierwszej kolejności przedstawiono wybrane badania związane z dziedziną korelacji wzrokowo-słuchowych. Następnie opisano założenia eksperymentów skupiające się wokół tworzenia klimatu prezentowanej sceny. We wnioskach odniesiono się do kilku hipotez sprawdzonych w ramach niniejszych badań, jak również przedstawiono kierunek dalszych prac.

Słowa kluczowe korelacje wzrokowo-słuchowe, korelacje słuchowo-wzrokowe, wpływ obrazu na percepcję dźwięku, wpływ dźwięku na percepcję obrazu, dźwięk dookólny

Pozycja nr 349

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Odya, B. Kostek, H. Skarżyński

Tytuł polski SPS-S - nowa metoda stymulacji słuchowej

Konferencja ISSET 2009 - XIII Międzynarodowe Sympozjum Inżynierii i Reżyserii Dźwięku

Numer preprintu

Numer

Wolumin

Strony 37 - 44

Miejsce konferencji Warszawa, Polska

Data konferencji 16.10.2009- 18.10.2009

Abstract One of the main objectives of the SPS-S method is the possibility of auditory training in conditions of everyday life, and therefore also outside the therapeutic institutions. A prototype of a new Compact Audio Therapy Unit (CATU) is presented that can process any audio signal inside a very compact device working in real time. The CATU offers the possibility of using multiple therapy programs, which run with the use of digital audio processing algorithms. It was designed to provide a platform for the therapy with the new Method of the Aural Perception Stimulation (SPS-S). The CATU and the SPS-S method will be described in the paper.

Streszczenie Istotnym założeniem metody SPS-S jest możliwość stosowania treningu słuchowego w warunkach życia codziennego, a więc także poza gabinetami placówek terapeutycznych. Mobilne urządzenie – stymulator słuchu jest oparte na najnowszej technologii mikroelektronicznej, Oferuje on możliwość wykorzystywania wielu programów terapii, które przebiegają z zastosowaniem algorytmów cyfrowego przetwarzania dźwięku. Algorytmy te można podzielić na klasyczne, nawiązujące w swojej zasadzie działania do koncepcji tzw. „Elektronicznego ucha” i na w pełni oryginalne algorytmy, które przekształcają dźwięki w taki sposób, aby ich odsłuchiwanie powodowało poprawę w zakresie lateralizacji słuchowej. W komunikacie zostanie przedstawiona nowa metoda stymulacji sensorycznej i opracowane urządzenie mobilne umożliwiające tę stymulację.

Pozycja nr 350

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, P. Kozielecki, B. Kostek

Tytuł angielski An Internet-based system for evaluation of the noise impact on hearing

Tytuł polski Internetowy system do oceny wpływu hałasu na słuch

Konferencja NOVEM 2009

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Oxford , Wielka Brytania

Data konferencji 5.4.2009- 8.4.2009

Abstract This paper describes the Internet-based system, developed at the Multimedia Systems Department, Gdansk University of Technology, Poland, dedicated to evaluate and visualize the noise impact on hearing through the Internet. The solution proposed, consisting of the Internet application which acquires noise samples and presents the graphical output of the system to the user, is integrated with the software of an autonomous monitoring station for continual acoustic climate surveillance. The core of the system is the algorithm, called Psychoacoustic Noise Dosimeter (PND), engineered for the noise influence evaluation on hearing based on the analysis of psychoacoustic features of the hearing process. Noise samples are uploaded by the users through the Internet and analyzed by the system acquisition, processing and visualization modules. The output of the Psychoacoustic Noise Dosimeter is presented to the user in two forms, namely as an animated audiogram chart, and as the noise damage risk indicator according to the authors’ concept. In the paper the results of the system preliminary tests from various locations are presented. The system has worldwide range and may provide convenient solution for public interested in noise impact on hearing.

Pozycja nr 351

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, A. Charukiewicz, B. Kostek

Tytuł angielski STUDY THE POSSIBILITY OF CORRECTION OF HEARING LOSS IN A ACOUSTIC FIELD USING SUPERDIRECTIONAL LOUDSPEAKERS

Tytuł polski BADANIE MOŻLIWOŚCI KOREKCJI UBYTKU SŁUCHU W POLU AKUSTYCZNYM Z WYKORZYSTANIEM GŁOŚNIKÓW SUPERKIERUNKOWYCH

Konferencja 56 Otwarte Seminariumn z Akustyki OSA'2009

Numer preprintu

Numer

Wolumin

Strony 517 - 522

Miejsce konferencji Goniądz, Polska

Data konferencji 15.9.2009- 18.9.2009

Abstract The aim of this paper is to show the possibility of using superdirectional speakers in the examination of hearing impaired persons in the acoustic field. First, construction characteristics of superdirectional loudspeaker along with the measurement results carried out in an anechoic chamber are presented. Then, the examination of hearing impaired persons and hearing impairment correction in free-field conditions using the described loudspeaker technology is proposed. The results of the conducted examination involving patients are gathered and analyzed. Conclusions and directions of development of the proposed method for correction of hearing loss are also presented.

Streszczenie Celem pracy jest pokazanie możliwości wykorzystania głośników superkierunkowych w badaniu osób niedosłyszących w polu akustycznym. Przedstawiono budowę oraz wyniki pomiarów charakte-rystyk głośników superkierunkowych w komorze bezechowej. Zaproponowano sposób prowadzenia badań osób niedosłyszących w wolnym polu z wykorzystaniem opisanych głośników oraz metodykę wykorzystania opisanej technologii w procesie korekcji ubytków słuchu. Przedstawiono i przeanali-zowano wyniki badań z udziałem grupy pacjentów. Podano wnioski i kierunki rozwoju zapropono-wanej metody korekcji ubytków słuchu.

Pozycja nr 352

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek, A. Czyżewski

Tytuł angielski Enhancement of computer character animation utilizing fuzzy rules

Tytuł polski Poprawa jakości animacji komputerowych postacji z wykorzystaniem reguł w logice rozmytej

Konferencja KES - Intelligent Interactive Multimedia Systems and Services

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Mogliano Veneto, Włochy

Data konferencji 16.7.2009- 17.7.2009

Abstract A new method for processing of character animation is presented. It involves fuzzy inference with both rules and membership functions derived from results of subjective evaluation tests. During processing a new motion phases are added to an animation increasing its quality and changing fluidity and stylization of motion. Animation parameterization is presented, new parameters are designed, and the relation between coefficients proposed and subjective features of motion are established. Quality and fluidity increase are verified during subjective evaluation of animations processed by the created animation enhancement system.

Streszczenie Referat przedstawia nową metodę przetwarzania komputerowych animacji postaci. Wykorzystuje ona wnioskowanie rozmyte, oparte na regułach i funkcjach przynależności uzyskanych w procesie analizy wyników testów subiektywnej oceny jakości animacji. W trakcie przetwarzania do animacji automatycznie dodawane są nowe fazy ruchu, co skutkuje poprawą jakości wizualnej oraz zmianą płynności i stylizacji ruchu w sposób zamierzony. W referacie opisano sposób parametryzacji animacji, zaproponowano nowe współczynniki, których wartości wykazały silną korelację z parametrami subiektywnymi animacji. Poprawa jakości i płynności ruchu zweryfikowane zostały w procesie testów oceny subiektywnej.

Projekt badawczy DS

Pozycja nr 353

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, M. Szczodrak, B. Kostek

Tytuł angielski Online urban noise monitoring system

Konferencja 16 ICSV

Numer preprintu

Numer

Wolumin

Strony 1 - 8

Miejsce konferencji Kraków, Polska

Data konferencji 5.7.2009- 9.7.2009

Abstract Concepts and implementation of the Online Urban Noise Monitoring System are presented in this paper. The objectives of the realized project are described. The concept of the dynamic acquisition of the noise source parameters is introduced. The idea of noise modeling, based on noise emission and propagation simulations, was developed and practically utilized in the system. The practical implementation of noise maps generation and visualization is pre-sented, together with introduced improvements in the domain of continuous noise monitoring and acoustic maps creation. The results of tests performed using the system prototype are shown.

Pozycja nr 354

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Odya, A. Grabkowska, M. Grabkowski, B. Kostek

Tytuł angielski Smart Pen - new multimodal computer control tool for dyslexia therapy

Tytuł polski Inteligentny długopis - komputerowy interfejs przeznaczony do terapii dysleksji

Konferencja Siggraph 2009

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Nowy Orlean, USA

Data konferencji 3.8.2009- 7.8.2009

Uwagi Plakat

Abstract Smart Pen is a tool for supporting the therapy of developmental dyslexia, with particular regard to dysgraphia. It comprises a display monitor equipped with a high-sensitivity touchpad and specially designed writing tool equipped with pressure sensors.

Streszczenie Inteligentny długopis jest narzędziem przeznaczonym do wspomagania terapii dysleksji, ze szczególnym uwzględnieniem dysgrafii. Interfejs składa się z monitora zintegrowanego z tabletem oraz długopisu wyposażonego w czujniki nacisku.

Pozycja nr 355

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Odya, H. Skarżyński, P. Skarżyński, P. Suchomski

Tytuł angielski New Technology for Hearing Stimulation Employing the SPS-S Method

Tytuł polski Wykorzystanie nowych technologii do treningu słuchu z użyciem metody SPS-S

Konferencja 127th AES Convention

Numer preprintu 7919

Numer

Wolumin

Strony

Miejsce konferencji Nowy Jork, USA

Data konferencji 9.10.2009- 12.10.2009

Abstract A prototype of a the new Compact Audio Therapy Unit (CATU) is presented that can process any audio signal inside a very compact device working in real time, employing advanced digital filtration, signal keying, manipulating playback rate, various spectral modifications of the signal, repeating phrases and others. It was designed to provide a platform for the therapy with the new Method of the Aural Perception Stimulation (SPS-S). The design for wearability allows one to use the device effectively in normal everyday life conditions, e. g. outdoors. The compact and versatile processing device can potentially open a new era in patients and trainees mobility.

Streszczenie Istotnym założeniem metody SPS-S jest możliwość stosowania treningu słuchowego w warunkach życia codziennego, a więc także poza gabinetami placówek terapeutycznych. Mobilne urządzenie – stymulator słuchu jest oparte na najnowszej technologii mikroelektronicznej, Oferuje on możliwość wykorzystywania wielu programów terapii, które przebiegają z zastosowaniem algorytmów cyfrowego przetwarzania dźwięku. Algorytmy te można podzielić na klasyczne, nawiązujące w swojej zasadzie działania do koncepcji tzw. „Elektronicznego ucha” i na w pełni oryginalne algorytmy, które przekształcają dźwięki w taki sposób, aby ich odsłuchiwanie powodowało poprawę w zakresie lateralizacji słuchowej. Wspomniane „Elektroniczne ucho” służy przede wszystkim poprawie motoryki mikromięśni ucha środkowego, podczas gdy algorytmy związane z poprawą lateralizacji, mogą być wykorzystywane do niwelowania licznych niekorzystnych objawów nieprawidłowej lateralizacji. Jak dowodzą badania naukowe, choć diagnozowane nieprawidłowości w tym zakresie dotyczą najczęściej lateralizacji słuchowej, to mogą one mieć również związek z jąkaniem się, z nie w pełni efektywnym widzeniem, a nawet z dysleksją. W komunikacie zostanie przedstawiona nowa metoda stymulacji sensorycznej i opracowane urządzenie mobilne umożliwiające tę stymulację.

Pozycja nr 356

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, M. Szczodrak, A. Czyżewski, B. Kostek, H. Skarżyński

Tytuł angielski Long-term continuous complex acoustical climate evaluation in selected schools

Konferencja Euronoise 2009

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Edynburg, Wielka Brytania

Data konferencji 26.10.2009- 28.10.2009

Abstract Results of the long-term continuous noise measurement in some selected schools are presented. The autonomous noise monitoring stations, engineered at the Multimedia Systems Department of the Gdansk University of Technology were used. A brief description of the measurement system including its main features is presented. The investigations of measured noise with a focus to the broadband and spectrum analysis both in 1/3 octave bands and critical bands are discussed. The harmfulness of the determined noise level, including the Temporary Threshold Shift simulation, is discussed. Additionally, measured air pollution is illustrated.

Projekt badawczy SECURITY

Pozycja nr 357

Typ pozycji: referat konferencyjny

Autorzy M. Kalinowski, M. Wilk, B. Kostek

Tytuł angielski Recording of a jazz band employing surround microphone systems

Tytuł polski NAGRANIE FORMY MUZYCZNEJ W SYSTEMIE STEREOFONII DOOKÓLNEJ

Konferencja XIII MIĘDZYNARODOWE SYMPOZJUM INŻYNIERII I REŻYSERII DŹWIĘKU , ISSET 2009

Numer preprintu

Numer

Wolumin

Strony 63 - 73

Miejsce konferencji Warszawa, Polska

Data konferencji 16.10.2009- 18.10.2009

Abstract The aim of this paper is to show the discussion on recording of a jazz band (quintet) employing surround stereophonic microphone systems. First, a short description of multichannel recording techniques used in the study is provided, then some details and assumptions concerning music recording at Radio Gdansk studio are given. Then, a thorough subjective evaluation has been performed and its results are shown along with conclusions on overall recording quality.

Streszczenie Celem pracy była realizacja nagrania kwintetu jazzowego w wybranych systemach stereofonii wielokanałowej. Dodatkowym celem było przeprowadzenie testów subiektywnych zrealizowanych nagrań. W pracy zawarto w pierwszej kolejności zagadnienia związane z przestrzenną lokalizacją źródeł dźwięku przez człowieka. W dalszej części przywołane zostały wybrane techniki mikrofonowe stereofonii wielokanałowej, a także metody prowadzenia testów subiektywnych. Realizacja nagraniowa dotyczyła rejestracji kwintetu jazzowego w systemach dźwięku dookólnego (INA 5, IRT Cross, OCT Front, Fukada Tree, Double M/S) w Radiu Gdańsk. Zrealizowane nagrania zostały poddane ocenie subiektywnej. W podsumowaniu przedstawiono wyniki testów odsłuchowych, podano wnioski nt. oceny ogólnej jakości nagrań oraz wskazanie preferencji ekspertów w zakresie zastosowanego systemu. Słowa kluczowe: inżynieria dźwięku, technologia nagrań, testy subiektywne, ocena jakości

Pozycja nr 358

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek, A. Czyżewski

Tytuł angielski New method for personalization of avatar animation

Tytuł polski Nowa metoda personalizacji animacji wirtualnych postaci

Konferencja International Conference on Man-Machine Interactions

Numer preprintu

Numer

Wolumin

Strony 435 - 443

Miejsce konferencji Kocierz, Polska

Data konferencji 25.9.2009- 27.9.2009

Identyfikator DOI 10.1007/978-3-642-00563-3_46

Abstract The paper presents a method for creating a personalized animation of avatar utilizing fuzzy inference. First the user designs a prototype version of animation, with keyframes only for important poses, roughly describing the action. Then animation is enriched with new motion phases calculated by the fuzzy inference system using descriptors given by the user. Various degrees of motion fluency and naturalness are possible to achieve. The proposed algorithm of the animation enrichment based on fuzzy description is thoroughly presented. The first part consists of creating fuzzy rules for the algorithm using results of subjective evaluation of the animated movement, the second one utilizes input descriptors for new motion phases calculation, which are finally added to the animation. Results of subjective evaluation of obtained animations are presented.

Streszczenie Referat przedstawia nową metodę tworzenia spersonalizowanych animacji wirtualnych postaci zwanych awatarami. Wykorzystuje ona wnioskowanie rozmyte. W pracy z przygotowanym systemem, animator projektuje prototypową wersję animacji, zawierającą klatki kluczowe dla najważniejszych póz postaci. Następnie animacja ta jest wzbogacana o nowe fazy, których parametry wyznaczane są w procesie wnioskowania rozmytego, z uwzględnieniem wartości opisowych zmiennych lingwistycznych podanych przez użytkownika. Możliwe jest uzyskiwanie ruchu o różnym stopniu płynności i naturalności, zgodnie z oczekiwaniami użytkownika. W referacie opisano sposób działania algorytmu. Pierwsza część wymaga analizy cech animacji ocenianych subiektywnie w celu wygenerowania bazy reguł. Następnie animacja prototypowa jest parametryzowana i w procesie wnioskowania rozmytego wyznaczane są nowe fazy ruchu, które są automatycznie wstawiane do animacji. Uzyskane w ten sposób animacje zostały poddane ocenie subiektywnej w celu potwierdzenia skuteczności modyfikacji charakteru animowanego ruchu.

Projekt badawczy DS

Pozycja nr 359

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, Ł. Kosikowski, B. Kostek, A. Szkiełkowska, K. Kochanek, H. Skarżyński

Tytuł angielski A portable device for voice monitoring

Tytuł polski Urządzenie przenośne do monitorowania głosu

Konferencja III Konferencja Naukowo-Szkoleniowa Sekcji Foniatrycznej i Sekcji Audiologicznej Polskiego Towarzystwa Otorynolaryngologów Chirurgów Głowy i Szyi

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Poznań, Polska

Data konferencji 8.5.2008- 10.5.2008

Uwagi plakat

Abstract The aim of the work was the elaboration of a prototype and, in the second step, the implementation of a portable voice monitoring device for the clinical practice. This device can be used at home, in the work etc. by people with a high risk of voice disorders, e.g. teachers or actors. Those people while speaking, often commit emission errors causing voice problems that can lead to future pathological changes in the larynx.

Streszczenie Celem projektu było opracowanie i implementacja przenośnego urządzenia do monitorowania głosu. Urządzenie może być wykorzystywane w domu i pracy, przez osoby, u których występuję zwiększone ryzyko wystąpienia zaburzeń głosu np. nauczycieli i aktorów. Osoby te często popełniają błędy emisyjne, które mogą w przyszłości spowodować zmiany patologiczne w krtani.

Słowa kluczowe MEDYCYNA, URZĄDZENIA MEDYCZNE, MOWA PATOLOGICZNA, MOWA

Pozycja nr 360

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek

Tytuł angielski A system for automatic detection and correction of detuned singing

Tytuł polski System automatycznej detekcji i korekcji zafałszowań w śpiewie

Konferencja Acoustics'08 Paris

Numer preprintu

Numer

Wolumin

Strony 1261 - 1266

Miejsce konferencji Paryż, Francja

Data konferencji 29.6.2008- 4.7.2008

Numer pozycji bibl. 18

Abstract The aim of the paper is to show a system engineered for automatic detection and correction of detuned singing. For this purpose, existing methods of fundamental frequency detection and pitch correction are reviewed. In addition, main characteristics of some existing detuning systems are presented. As algorithms for fundamental frequencies detection and pitch correction, the fast autocorrelation and HPS (Harmonic Product Spectrum), and the modified phase vocoder and PSOLA (Pitch-Synchronous Overlap-Add) are chosen and examined. Four possible combinations of the algorithms are reviewed not only in the context of fundamental frequency detectionand pitch shifting correctness but also with regard to the quality of the resulting singing signal. Experiments are performed on both male and female singing samples consisting of a variety of tones and various articulations. Basing on the obtained results, it is concluded that the HPS and PSOLA algorithms are the optimum choice as means to correct detuned singing. In addition, listening tests are performed in order to confirm objective measurements of pitch detection and correction. The system is implemented in JAVA. Conclusions are drawn and proposals of improvements are provided.

Streszczenie W referacie przedstawiono system realizujący automatyczną detekcję i korekcję zafałszowań w śpiewie. W pierwszej części dokonano przeglądu wybranych metod detekcji częstotliwości podstawowych i korekcji wysokości dźwięku. Scharakteryzowano również wybrane systemy korekcji fałszu. Jako algorytmy detekcji częstotliwości podstawowych wybrano i zbadano algorytm szybkiej autokorelacji i algorytm HPS (Harmonic Product Spectrum). Jako algorytmy korekcji wysokości dźwięku wybrano i zbadano zmodyfikowany wokoder fazowy i algorytm PSOLA. Zbadano cztery kombinacje wymienionych algorytmów pod względem nie tylko zdolności detekcji i korekcji fałszu ale również jakości przetworzonego sygnału. Eksperymenty wykonano dla głosów męskich i żeńskich, z uwzględnieniem różnych artykulacji. Za optymalne algorytmy uznano algorytm HPS i algorytm PSOLA. System zaimplementowano w języku JAVA. W końcowej części referatu zaproponowano ulepszenia systemu.

Słowa kluczowe detekcja i korekcja zafałszowań, HPS, PSOLA, wokoder, algorytm szybkiej autokorelacji

Projekt badawczy DS

Pozycja nr 361

Typ pozycji: referat konferencyjny

Autorzy M. Lech, B. Kostek

Tytuł angielski Automatic detection and correction of detuned singing

Tytuł polski Automatyczna detekcja i korekcja zafałszowań w śpiewie

Konferencja Acoustics'08 Paris

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Paryż, Francja

Data konferencji 29.6.2008- 4.7.2008

Uwagi Popular version of conference paper for ASA World Wide Press Room (http://www.acoustics.org/press/155th/lech.htm)

Abstract The aim of the paper is to show a system engineered for automatic detection and correction of detuned singing. For this purpose, existing methods of fundamental frequency detection and pitch correction are reviewed. In addition, main characteristics of some existing detuning systems are presented. As algorithms for fundamental frequencies detection and pitch correction, the fast autocorrelation and HPS (Harmonic Product Spectrum), and the modified phase vocoder and PSOLA (Pitch-Synchronous Overlap-Add) are chosen and examined. Four possible combinations of the algorithms are reviewed not only in the context of fundamental frequency detectionand pitch shifting correctness but also with regard to the quality of the resulting singing signal. Experiments are performed on both male and female singing samples consisting of a variety of tones and various articulations. Basing on the obtained results, it is concluded that the HPS and PSOLA algorithms are the optimum choice as means to correct detuned singing. In addition, listening tests are performed in order to confirm objective measurements of pitch detection and correction. The system is implemented in JAVA. Conclusions are drawn and proposals of improvements are provided.

Streszczenie W referacie przedstawiono system realizujący automatyczną detekcję i korekcję zafałszowań w śpiewie. W pierwszej części dokonano przeglądu wybranych metod detekcji częstotliwości podstawowych i korekcji wysokości dźwięku. Scharakteryzowano również wybrane systemy korekcji fałszu. Jako algorytmy detekcji częstotliwości podstawowych wybrano i zbadano algorytm szybkiej autokorelacji i algorytm HPS (Harmonic Product Spectrum). Jako algorytmy korekcji wysokości dźwięku wybrano i zbadano zmodyfikowany wokoder fazowy i algorytm PSOLA. Zbadano cztery kombinacje wymienionych algorytmów pod względem nie tylko zdolności detekcji i korekcji fałszu ale również jakości przetworzonego sygnału. Eksperymenty wykonano dla głosów męskich i żeńskich, z uwzględnieniem różnych artykulacji. Za optymalne algorytmy uznano algorytm HPS i algorytm PSOLA. System zaimplementowano w języku JAVA. W końcowej części referatu zaproponowano ulepszenia systemu.

Słowa kluczowe detekcja i korekcja zafałszowań, HPS, PSOLA, wokoder, algorytm szybkiej autokorelacji

Projekt badawczy DS

Pozycja nr 362

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Personalized avatar animation for virtual reality

Tytuł polski Zastosowanie personalizacji animacji postaci w aplikacjach rzeczywistości wirtualnej

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin

Numer czasopisma 16

Strony 463 - 468

Rok 2008

Abstract The paper presents a method for creating a personalized animation of avatar. Animation is stored in a simplified version, containing only keyframes for important avatar poses. This version defines key movements, i.e. roughly describes the avatar's action. Animation is enriched by the user with new motion phases utilizing fuzzy descriptors. Various degrees of motion fluency and naturalness are possible to achieve. In that manner subjective style of the motion is being changed. On that basis the user has an ability to create a personalized animation style for the avatar. The algorithm of animation enrichment based on fuzzy description is presented. Subjective evaluation of obtained animated motion is described. Software architecture is proposed, containing server and client applications.

Streszczenie Celem referatu jest przedstawienie metody tworzenia spersonalizowanej animacji wirtualnej postaci. Na wejściu aplikacji podawane są animacje czynności i gestów, które wzbogacane są o dodatkowe klatki kluczowe. Ma to na celu wprowadzenie do animowanego ruchu elementów nie zmieniających jego obiektywnej treści, ale wpływających na odbiór subiektywny. Parametry dodawanych faz zaleŜne są od subiektywnego opisu podanego przez użytkownika. MoŜliwe jest osiągnięcie zróżnicowanych stopni płynności i stylizacji ruchu. W referacie przedstawiono sposób wyznaczania parametrów animowanego ruchu, ich rozmytego opisu oraz algorytm wzbogacania animacji. Przytoczono i skomentowano wyniki testów oceny subiektywnej uzyskiwanego ruchu. Zaproponowano wykorzystanie opisanego algorytmu wzbogacania w aplikacji rzeczywistości wirtualnej.

Projekt badawczy DS

Pozycja nr 363

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Personalized avatar animation for virtual reality

Tytuł polski Zastosowanie personalizacji animacji postaci w aplikacjach rzeczywistości wirtualnej

Konferencja 1st International Conference on Information Technology

Numer preprintu

Numer 1

Wolumin

Strony 341 - 344

Miejsce konferencji Gdańsk, Polska

Data konferencji 19.5.2008- 21.5.2008

Abstract The paper presents a method for creating a personalized animation of avatar for virtual reality application such as multiplayer on-line games. Animation is stored in a simplified version, containing only keyframes for important avatar poses. This version defines key movements, i.e. roughly describes the avatar's action. Animation is enriched by the user with new motion phases utilizing fuzzy descriptors. Various degrees of motion fluency and naturalness are possible to achieve. In that manner subjective style of the motion is being changed. On that basis the user has an ability to create a personalized animation style for the avatar. The algorithm of animation enrichment based on fuzzy description is presented. Subjective evaluation of obtained animated motion is described. Software architecture is proposed, containing server and client applications.

Streszczenie W referacie przedstawiono metodę tworzenia spersonalizowanej animacji wirtualnej postaci zwanej awatarem. Rozwiązanie może być stosowane w aplikacjach internetowych komunikatorów lub w sieciowych grach wideo. Ruch animowanej postaci jest początkowo dostępny w uproszczonej wersji, zawierającej wyłącznie najważniejsze pozy postaci, tzw. pozy kluczowe, które zgrubnie opisują sposób wykonania czynności. Animacja taka jest wzbogacana o nowe fazy ruchu wyznaczane na podstawie zadanych przez użytkownika parametrów rozmytych. Możliwe jest uzyskanie różnego stopnia płynności i stylizacji ruchu, dzięki czemu tworzona jest animacja zgodna z oczekiwaniami użytkownika. Opisany jest algorytm przetwarzania animacji wykorzystujący wnioskowanie rozmyte oraz wyniki oceny jakości wizualnej animacji uzyskiwanych w wyniku działania algorytmu. Zaproponowana jest architektura oprogramowania serwer-klient, korzystająca z wzbogacania animacji.

Projekt badawczy DS

Pozycja nr 364

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Żwan, P. Szczuko, B. Kostek, A. Czyżewski

Tytuł angielski Automatic Singing Voice Recognition Employing Neural Networks and Rough Sets

Tytuł polski Automatyczne rozpoznawanie głosów śpiewaczych przy pomocy sieci neuronowych i zbiorów przybliżonych

Czasopismo Transactions on Rough Sets

Wolumin

Numer czasopisma 9

Strony 455 - 473

Rok 2008

Abstract The aim of the research study presented in this paper is the automatic recognition of a singing voice. For this purpose, a database containing sample recordings of trained and untrained singers was constructed. Based on these recordings, certain voice parameters were extracted. Two recognition categories were deﬁned – one reﬂecting the skills of a singer (quality), and the other reﬂecting the type of the singing voice (type). The paper also presents the parameters designed especially for the analysis of a singing voice and gives their physical interpretation. Decision systems based on artiﬁcial neutral networks and rough sets are used for automatic voice quality/ type classiﬁcation. Results obtained from both decision systems are then compared and conclusions are derived.

Streszczenie Celem badań jest automatyczne rozpoznawanie głosów śpiewaczych w kategorii rodzaju i jakości technicznej śpiewu. W artykule opisano stworzoną bazę danych głosów, która zawiera próbki głosu śpiewaków profesjonalnych i amatorskich. W dalszej części opisano parametry zdefiniowane w oparciu o zjawiska biomechaniczne w narządzie głosu podczas śpiewania. W oparciu o stworzone macierze parametrów wytrenowano i porównano automatyczne klasyfikatory śpiewu oparte o sieci neuronowe i zbiory rozmyte.

Pozycja nr 365

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, J. Wójcik, P. Szczuko

Tytuł angielski Automatic Rhythm Retrieval from Musical Files

Tytuł polski Automatyczne pozyskiwanie informacji rytmicznej z plików muzycznych

Czasopismo Transactions on Rough Sets

Wolumin

Numer czasopisma 9

Strony 56 - 75

Rok 2008

Abstract This paper presents a comparison of the eﬀectiveness of two computational intelligence approaches applied to the task of retrieving rhythmic structure from musical ﬁles. The method proposed by the authors of this paper generates rhythmic levels ﬁrst, and then uses these levels to compose rhythmic hypotheses. Three phases: creating periods, creating simpliﬁed hypotheses and creating full hypotheses are examined within this study. All experiments are conducted on a database of national anthems. Decision systems such as Artiﬁcial Neural Networks and Rough Sets are employed to search the metric structure of musical ﬁles. This was based on examining physical attributes of sound that are important in determining the placement of a particular sound in the accented location of a musical piece. The results of the experiments show that both decision systems award note duration as the most signiﬁcant parameter in automatic searching for metric structure of rhythm from musical ﬁles. Also, a brief description of the application realizing automatic rhythm accompaniment is presented.

Streszczenie Artykuł zawiera porównanie efektywności działania dwóch metod inteligencji obliczeniowej, użytych w celu poszukiwania informacji o strukturze rytmicznej plików muzycznych. W zaproponowanej przez autorów metodzie w pierwszym kroku generowana jest populacja hipotez rytmicznych, które są następnie oceniane w kontekście dopasowania do utworu. Eksperymenty przeprowadzoneo w oparciu o bazę nagrań hymnów państwowych. W pracy do poszukiwania informacji rytmicznej w nagraniach zostały wykorzystane systemy decyzyjne oparte na sieciach neuronowych i zbiorach przybliżonych. Zaprezentowane wyniki dowodzą, iż dla obu systemów decyzyjnych parametrem dystynktywnym w poszukiwaniu prawidłowej struktury rytmicznej jest długość dźwięku. W podsumowaniu przedstawiony został opis aplikacji komputerowej generującej automatyczny akompaniament perkusyjny do nagrań muzycznych.

Pozycja nr 366

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski, Ł. Kosikowski, K. Kochanek, H. Skarżyński

Tytuł angielski Hearing-screening tests based on filtered sounds and on speech-in-noise intelligibility tests

Tytuł polski Audiometria przesiewowa dedykowana dla dzieci przedszkolnych

Konferencja Acoustics'2008

Numer preprintu 2958

Numer

Wolumin

Strony

Miejsce konferencji Paris, France

Data konferencji 29.6.2008- 4.6.2008

Abstract A hearing-screening system dedicated to small-children in pre-schools and primary schools is described in the paper. It uses as a hardware a palmtop computer supplemented with a small sound calibrating device. The described application provides tests that employ automatic questionnaire analysis, audiometric test procedures, and assessment of speech intelligibility in noise. In the speech-in-noise intelligibility tests, pictures are used for young children, and the screening tests are supervised by adults. Apart from the standardized audiometric tests, the screening tests employ environmental sounds filtered in audiometric frequency bands and calibrated as to their levels. When all the testing is completed, the system automatically analyzes the results for each child examined. The decision is made automatically by the expert system taking into account the number of incorrect answers. Children whose hearing impairment is confirmed are referred to treatment in rehabilitation centers. The project presented is a part of the large-scale ”I can hear...” screening tests program carried out in Poland for the last few years. This may help to increase awareness and inspire action against noise at a very early age. The methods employed for filtering and calibration environmental sounds and results achieved are presented in the paper.

Streszczenie W referacie przedstawiono testy audiometrii dziecięcej przesiewowej, zaimplementowane na urządzeniu typu PDA. Przedyskutowano funkcjonalności tego typu audiometru i opisano przygotowane testy audiometrii przesiewowej. Słowa kluczowe: audiometria przesiewowa, audiometria mowy w szumie, testy audiometryczne, PDA

Pozycja nr 367

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, A. Geremek, K. Kochanek, H. Skarżyński

Tytuł angielski Contactless hearing aid

Tytuł polski Bezkontaktowy aparat słuchowy

Konferencja XLIII Zjazd Polskiego Towarzystwa Otorynolaryngologów Chirurgów Głowy i Szyi

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Łódź, Polska

Data konferencji 4.6.2008- 7.6.2008

Streszczenie Celem prowadzonych prac jest wdrożenie cyfrowego bezkontaktowego aparatu słuchowego dla niemowląt. W ubiegłych latach opracowano model takiego urządzenia, który wykorzystano do uruchomienia algorytmów filtracji przestrzennej dźwięku, algorytmów eliminowania pasożytniczych sprzężeń akustycznych i metod kompresji oraz wzmacniania mowy. Model przetestowano w łóżeczku dziecięcym, z udziałem małych dzieci. Aktualnie prowadzone jest opracowanie praktycznego zestawu aparatu słuchowego, pracującego w swobodnym polu akustycznym oraz jego kolejne próby w warunkach klinicznych, w Klinice Audiologii IFPS. W toku badań zaprojektowany bezkontaktowy aparat słuchowy umiejscawiany jest w łóżeczku niemowlęcia. Aparat składający się z matrycy 4 mikrofonów oraz z prototypowej karty z procesorem DSP pracuje w polu akustycznym otaczającym głowę dziecka. Przetworzony sygnał mowy emitowany jest z wykorzystaniem miniaturowych głośników, w tym głośników kierunkowych o specjalnej konstrukcji. Opracowane algorytmy pozwalają na eliminację akustycznych sprzężeń zwrotnych, które mogą występować ze względu na niewielką odległość mikrofonów od głośników i potencjalnie wysokie wzmocnienie sygnału w polu akustycznym. Algorytm filtracji przestrzennej wykorzystuje nieliniową filtrację sygnału w dziedzinie widma. W toku prowadzenia eksperymentów wykorzystywana jest metodyka badań obiektywnych i metoda obserwacji behawioralnych z udziałem matek i ich dzieci. Badaniom poddawane zostają dzieci kilkumiesięczne. Reakcje obiektywnie mierzalne są badane przy użyciu urządzenia służącego do prowadzenia przesiewowych badań słuchu, z wykorzystaniem metod ABR (potencjały wywołane pnia mózgu) i TEOAE (otoemisja akustyczna wywołana trzaskiem) – Kuba Mikro. Ponadto, w zakres projektu, którego dotychczasowe rezultaty są przedmiotem referatu, wchodzi analiza i dyskusja wyników eksperymentalnych uzyskanych w powyżej określonych warunkach. Słowa kluczowe: audiometria, badanie słuchu, protezy słuchu

Pozycja nr 368

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, Ł. Kania

Tytuł angielski Music Information Analysis and Retrieval - a Review

Tytuł polski Analiza i wyszukiwanie informacji muzycznej - przegląd wybranych zagadnień

Konferencja 55 Otwarte Seminarium z Akustyki OSA 2008

Numer preprintu

Numer

Wolumin

Strony 31 - 42

Miejsce konferencji Piechowice, Polska

Data konferencji 8.9.2008- 12.9.2008

Streszczenie W referacie przedstawiono wybrane zagadnienia związane z analizą i wyszukiwaniem informacji muzycznej. Przegląd ten został oparty na literaturze związanej z dziedziną informatyki muzycznej i koncentruje się wokół problemu parametryzacji dźwięków muzycznych i sygnałów fonicznych oraz analizie przydatności wybranych metod tzw. sztucznej inteligencji (ang. computational intelligence) do akwizycji i rozpoznawania obiektów muzycznych (m.in. dźwięków instrumentów muzycznych, śpiewu, fraz muzycznych, sygnałów fonicznych). Problematyka ta obejmuje również wyszukiwanie utworów muzycznych na podstawie preferencji użytkowników baz internetowych oraz klasyfikacji gatunków muzycznych. Ten ostatni problem został przedstawiony w kontekście eksperymentów prowadzonych w Katedrze Systemów Multimedialnych Politechniki Gdańskiej. W referacie przywołano eksperymenty związane z parametryzacją, analizą i wyszukiwaniem gatunków muzycznych. Poruszono również problem nadmiarowości danych zawartych w wektorach cech opisujących obiekty muzyczne. Wyniki badań potwierdziły możliwość wykorzystania algorytmów sztucznej inteligencji do rozwiązywania problemów z dziedziny informatyki muzycznej. Słowa kluczowe: informatyka muzyczna, bazy danych, wyszukiwanie informacji, parametryzacja

Pozycja nr 369

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, B. Kostek

Tytuł angielski THE ASSESSMENT OF THE NOISE-INDUCED HARMFUL EFFECTS BASED ON THE PROPERTIES OF HUMAN HEARING SYSTEM

Tytuł polski OCENA SZKODLIWOŚCI HAŁASU Z UWZGLĘDNIENIEM PSYCHOAKUSTYCZNYCH WŁAŚCIWOŚCI SŁUCHU

Czasopismo Archives of Acoustics

Wolumin 33

Numer czasopisma 4

Strony 435 - 440

Rok 2008

Abstract A new way of assessment of noise-induced harmful effects on human hearing system is presented in the paper. The method takes into consideration properties of the human hearing system. The pro-posed method determines the cumulative impact on hearing system produced by the excessive noise. Based on the predicted effects of the noise exposure, the new types of noise indicators were developed. The evaluation of these indicators was conducted using various types of noise. The indicators proposed can improve assessment of the harmful effect caused by the noise exposure. A discussion about the type of critical band representations (Bark or ERB scales) used in the analyses was also presented.

Streszczenie W referacie przedstawiono nowy sposób oceny szkodliwości hałasu. Metoda ta opiera się na uwzględnianiu własności psychoakustycznych słuchu. Zaproponowana metoda polega na wyznaczeniu skumulowanego wpływu dużego poziomu hałasu na system słuchowy. W oparciu o tę metodę autorzy zaproponowali nowe wskaźniki oceny skutków słuchowych wywołanych przez hałas. Przedstawiono ocenę nowych wskaźników z użyciem standardowych typów hałasów. Wskaźniki mogą przyczynić się do pełniejszej oceny szkodliwego oddziaływania hałasu na słuch. Dodatkowo przedstawiono dyskusję nad zastosowaną reprezentacją pasm krytycznych słuchu (wyrażoną w Barkach i ERBach).

Pozycja nr 370

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, B. Kostek, K. Kochanek, H. Skarżyński

Tytuł angielski Extending the Universal Screening System "I can hear." with diagnosing influence of noise to hearing

Tytuł polski Rozbudowa systemu przesiewowego badań słuchu "Słyszę" o funkcje diagnozowania wpływu hałasu na słuch

Konferencja XLIII Zjazd Polskiego Towarzystwa Otorynolaryngologów Chirurgów Głowy i Szyi

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Łódź, Polska

Data konferencji 4.6.2008- 7.6.2008

Streszczenie Liczne i alarmujące sygnały dotyczące stanu słuchu społeczeństwa, a zwłaszcza dzieci i młodzieży oraz klimatu akustycznego w kraju stanowiły motywację do rozszerzenia systemu powszechnych badań przesiewowych słuchu "SŁYSZĘ" o moduł do diagnozowania wpływu hałasu na słuch. W Katedrze Systemów Multimedialnych we współpracy z Instytutem Fizjologii i Patologii Słuchu, opracowano nowatorskie narzędzia diagnostyczne, umożliwiające przeprowadzenie wiarygodnych, przesiewowych testów słuchu. Nadmierny hałas występujący w środowisku (w tym również szkołach) może stanowić realne zagrożenie dla słuchu. Niezwykle potrzebne jest szerokie propagowanie walki z hałasem i zapobieganie negatywnym skutkom wywołanym ekspozycją na wysoki poziom hałasu. Jest to możliwe przez zastosowanie zaprojektowanych w tym celu urządzeń pomiarowych, które z automatyczny za pomocą komunikacji bezprzewodowej będą przekazywały aktualne informacje o zagrożeniu hałasem. Najnowsza wersja oprogramowania systemu "Słyszę" umożliwia przeprowadzanie testów przesiewowych słuchu przez Internet jak również za pomocą urządzeń typu PoketPC.

Pozycja nr 371

Typ pozycji: książka

Autorzy A. Czyżewski, B. Kostek, J. Kotus

Tytuł angielski Multimedia Interactive Services in Intelligent Environments; Multimedia Services Applied to Noise and Hearing Monitoring and Measuring

Wydawca Springer

Strony 275 - 295

Rok 2008

Uwagi Rozdział w książce

Abstract The goal of this chapter is to show a research study related to processing of data acquired by the multimedia services engineered at the multimedia systems department (MSD) of the Gdansk University of Technology. This concerns a survey on noise threat employing the multimedia noise monitoring system (MNMS) and hearing tests performed by the “I can hear. . . ” system. The obtained results of the noise measurements revealed that an unfavorable noise climate was found in the examined schools and music clubs. This was also confirmed by the hearing examination results. On the basis of data gathered by both systems it was possible to perform an analysis relating the hearing impairment and noise indicators. New noise annoyance and noise threat criteria were proposed and verified based on the data acquired and analyzed. The measurement results obtained under in situ conditions were compared with those computed by means of the proposed psychoacoustical noise dosimeter.

Pozycja nr 372

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, A. Czyżewski, B. Kostek

Tytuł angielski Evaluation of Excessive Noise Effects on Hearing Employing Psychoacoustic Dosimetry

Czasopismo Noise Control Engineering Journal

Wolumin

Numer czasopisma

Strony

Rok 2008

Uwagi W druku

Abstract Research results regarding the noise impact on hearing applying the concept of the Psychoacoustic Noise Dosimetry (PND) are presented. The general characteristics of the PND algorithm are discussed. Additionally, the results of hearing examinations conducted in the laboratory conditions are shown. The main objective of the research was to determine the time needed for the Temporary Threshold Shift to reverse. The results were used for the optimization of the designed PND performance. A validation of the PND algorithm was performed considering real noise exposure conditions. A new way of assessing noise-induced harmful effects on human hearing system was proposed employing the new indicators of noise harmfulness. The indicators are based on some psychoacoustical properties of the human hearing system and, simultaneously, on the time and frequency characteristics of noise. The correctness and the practical applicability of the newly proposed indicators were confirmed experimentally using hearing testing with real noise exposures and also on the basis of simulation results employing some standard test signals.

Pozycja nr 373

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, B. Kostek

Tytuł angielski THE ASSESSMENT OF THE NOISE-INDUCED HARMFUL EFFECTS BASED ON THE PROPERTIES OF HUMAN HEARING SYSTEM

Tytuł polski OCENA SZKODLIWOŚCI HAŁASU Z UWZGLĘDNIENIEM PSYCHOAKUSTYCZNYCH WŁAŚCIWOŚCI SŁUCHU

Konferencja 55 Otwarte Seminarium z Akustyki

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wrocław, Polska

Data konferencji 8.9.2008- 12.9.2008

Abstract A new way of assessment of noise-induced harmful effects on human hearing system is presented in the paper. The method takes into consideration properties of the human hearing system. The pro-posed method determines the cumulative impact on hearing system produced by the excessive noise. Based on the predicted effects of the noise exposure, the new types of noise indicators were developed. The evaluation of these indicators was conducted using various types of noise. The indicators proposed can improve assessment of the harmful effect caused by the noise exposure. A discussion about the type of critical band representations (Bark or ERB scales) used in the analyses was also presented.

Streszczenie W referacie przedstawiono nowy sposób oceny szkodliwości hałasu. Metoda ta opiera się na uwzględnianiu własności psychoakustycznych słuchu. Zaproponowana metoda polega na wyznaczeniu skumulowanego wpływu dużego poziomu hałasu na system słuchowy. W oparciu o tę metodę autorzy zaproponowali nowe wskaźniki oceny skutków słuchowych wywołanych przez hałas. Przedstawiono ocenę nowych wskaźników z użyciem standardowych typów hałasów. Wskaźniki mogą przyczynić się do pełniejszej oceny szkodliwego oddziaływania hałasu na słuch. Dodatkowo przedstawiono dyskusję nad zastosowaną reprezentacją pasm krytycznych słuchu (wyrażoną w Barkach i ERBach).

Pozycja nr 374

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski PSYCHOACOUSTICAL NOISE DOSIMETRY IN THE MULTIMEDIA NOISE MONITORING SYSTEM

Tytuł polski PSYCHOAKUSTYCZNA DOZYMETRIA HAŁASOWA W MULTIMEDIALNYM SYSTEMIE MONITOROWANIA HAŁASU

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin

Numer czasopisma 16

Strony 477 - 482

Rok 2008

Abstract The results obtained by means of the Psychoacoustical Noise Dosimeter (PND) were presented in the paper. The developed algorithm provides a new way of the assessment of noise harmfulness. This method was developed on the basis of the available scientific knowledge followed by hearing and noise measurements carried out in laboratory conditions. Taking this knowledge into consideration the new indicators of the cumulative noise-induced harmfulness effects assessment were proposed. Their usefulness and correctness were confirmed on the basis of hearing examination conducted in the real noise exposure situation. Moreover, the PND algorithm was also implemented in the noise monitoring station. It provides an integral part of the teleinformation system for the noise threat monitoring, developed in the Multimedia System Department. The unique functionality of the station enables very precise evaluation of the acoustical conditions. Owing to that, it makes an essential tool supporting the noise-induced hearing loss prevention.

Streszczenie W referacie przedstawiono wyniki działania Psychoakustycznego Dozymetru Hałasowego (PDH). Opracowany algorytm stanowi nowy sposób oceny szkodliwości hałasu. Metoda ta opiera się na wykorzystaniu wiedzy na temat właściwości słuchu dostępnej w literaturze oraz na wynikach badań słuchu i hałasu przeprowadzonych w warunkach laboratoryjnych. Na tej podstawie zaproponowano nowe wskaźniki oceny skumulowanych skutków słuchowych wywołanych ekspozycją na hałas. Poprawność działania opracowanego algorytmu i zaproponowanych wskaźników potwierdzono na podstawie badań w warunkach rzeczywistego narażenia na hałas. Algorytm PDH zaimplementowano ponadto w stacji monitorowania hałasu. Stanowi ona integralną część, opracowanego w Katedrze, teleinformatycznego systemu monitorowania zagrożeń hałasem. Unikatowa funkcjonalność stacji umożliwia dokładną ocenę warunków akustycznych pod względem ich potencjalnej szkodliwości dla słuchu.

Pozycja nr 375

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, Ł. Kania

Tytuł angielski Music Information Analysis and Retrieval Techniques

Tytuł polski Systemy automatycznego wyszukiwania informacji muzycznej

Czasopismo Archives of Acoustics

Wolumin 33

Numer czasopisma 4

Strony 483 - 496

Rok 2008

Abstract This paper presents the main issues related to music information retrieval (MIR) domain. MIR is a multi-discipline area. Within this domain, there exists a variety of approaches to musical instrument recognition, musical phrase classification, melody classification (e.g. query-by-humming systems), rhythm retrieval, high-level-based music retrieval such as looking for emotions in music or differences in expressiveness, music search based on listeners’ preferences, etc. The key-issue lies, however, in the parameterization of a musical event. In this paper some aspects related to MIR are shortly reviewed in the context of possible and current applications to this domain.

Streszczenie Celem artykułu jest przedstawienie kluczowych zagadnień gwałtownie rozwijającej się gałęzi multimediów, reprezentowanej przez systemy automatycznego wyszukiwania informacji muzycznej MIR - Music Information Retrieval, która urasta do samodzielnej dziedziny zastosowań w obrębie informatyki muzycznej. W artykule przedstawiono wybrane systemy wyszukiwania informacji muzycznej oraz przedstawiono przykład takiego systemu, zrealizowanego w Katedrze Systemów Multimedialnych Politechniki Gdańskiej. Słowa kluczowe: multimedia, informacja muzyczna, informatyka muzyczna

Pozycja nr 376

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski HEARING AID FITTING METHOD BASED ON FUZZY LOGIC PROCESSING

Tytuł polski PRZETWARZANIE ROZMYTE W METODZIE DOPASOWANIA APARATÓW SŁUCHOWYCH

Czasopismo ARCHIVES of ACOUSTICS

Wolumin 33

Numer czasopisma 4

Strony 153 - 158

Rok 2008

Abstract One of the most important steps in a hearing aids fitting procedure is determining hearing dynamic characteristics. The hearing dynamic characteristics are typically calculated on the basis of loudness scaling test results. The problem is that the loudness scaling test results are presented on a loudness category scale, but a hearing prosthesis requires numerical parameters to be fed. A fuzzy logic method is useful for processing parameters expressed in human natural language. In this paper a fuzzy logic-based system for loudness scaling result processing is shortly presented. On the basis of the developed fuzzy system a way to shorten the loudness scaling test was found out.

Streszczenie Ważnym etapem dopasowania współczesnych aparatów słuchowych jest wyznaczanie charakterystyki dynamiki słuchu. Charakterystyka ta wyznaczana jest na podstawie wyników testu skalowania głośności. Niestety wyniki te wyrażone są w skali kategorii głośności, natomiast aparaty słuchowe wymagają para-metrów numerycznych. Problem ten można rozwiązać za pomocą logiki rozmytej. W niniejszym referacie przedstawiono metodę przetwarzania rozmytego wyników testu skalowania głośności. Na bazie opraco-wanej metody pokazano również sposób skrócenia testu skalowania głośności

Pozycja nr 377

Typ pozycji: referat konferencyjny

Autorzy J. Kotus, B. Kostek, A. Czyżewski

Tytuł angielski The noise induced harmful effects assessment using psychoacoustical noise dosimeter

Konferencja Acoustics 08

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Paryż, Francja

Data konferencji 29.6.2008- 4.7.2008

Abstract A new way of assessment of noise-induced harmful effects on human hearing system was presented in the paper. Employing the developed psychoacoustical noise dosimeter the new indicators of noise harmfulness were verified on the basis of hearing examinations and noise measurement results. The indicators were based on some psychoacoustical properties of the human hearing system and, at the same time, on evaluation of the time and frequency characteristics of noise. Additionally, time properties of the Temporary Threshold Shift are calculated during the noise exposure. The evaluation of the proposed indicators were conducted on the basis of hearing examinations in the real noise exposure situations and also on the basis of simulation results employing standard test signals (such as: white, pink and brown noise). The standard noise dose analysis results were also presented for the purpose of comparison. The performed analysis and obtained results confirmed correctness and practical usefulness of the proposed indicators.

Pozycja nr 378

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Żwan, B. Kostek

Tytuł angielski System for Automatic Singing Voice Recognition

Tytuł polski System Automatycznego rozpoznawania śpiewu

Czasopismo J. Audio Eng. Soc.

Wolumin 56

Numer czasopisma 9

Strony 710 - 723

Rok 2008

Abstract A system designed to recognize automatically the quality and type of a singing voice is presented. A database containing 2690 sample recordings of trained and untrained singers was first constructed. A set of parameters was then derived on the basis of these samples. Artificial neural networks (ANNs) were trained and tested to show that they can recognize a singing voice category automatically on the basis of the defined set of parameters. The results show that in 90% of its decisions the system was able to assign the sample correctly to either an adequate voice quality or voice type. In addition each of the singers’ voice samples was judged by six experts, and a parametric technical quality score was assigned to every sample. Next the voice samples, along with their scores, were fed to the input of the ANN. It has been shown that the ANN can be trained effectively to determine the technical quality of singing voices, very similarly to experts. In order to prove their similarity the automatic recognition error distribution and the experts’ precision plots were compared statistically. The Pearson’s autocorrelation measure was used. The results showed that the critical value of 0.834 (for 0.005) was not reached, thus proving that differences between these results are statistically nonrelevant.

Streszczenie W artykule przedstawiono system automatycznego rozpoznawania jakości i typu głosu śpiewaczego. Przedstawiono bazę danych oraz zaimplementowane parametry. Algorytmem decyzyjnym jest algorytm sztucznych sieci neuronowych. Wytrenowany system decyzyjny osiąga skuteczność ok. 90% w obydwu kategoriach rozpoznawania. Dodatkowo wykazano przy pomocy metod statystycznych, że wyniki działania systemu automatycznej oceny jakości technicznej głosów śpiewaczych są zgodne z wynikami osiągniętymi przez ekspertów.

Pozycja nr 379

Typ pozycji: referat konferencyjny

Autorzy M. Reiter, B. Kostek

Tytuł polski Zastosowanie modelowania źródła hałasu kolejowego dla polskich pociągów

Konferencja Technologie Informacyjne

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 18.5.2008- 21.5.2008

Abstract Celem referatu jest zaprezentowanie wyników implementacji modelu prognozowania źródłowego hałasu kolejowego zawartego w projektach HARMONOISE/IMAGINE, opartego na danych referencyjnych tego modelu. Wyniki prognozowania porównano z wynikami pomiarów przeprowadzonych w warunkach rzeczywistych i na tej podstawie wyznaczono wartości błędów pomiędzy obliczeniami a wartościami pomiarowymi. W modelu przyjęto takie same warunki atmosferyczne, w jakich przeprowadzone zostały pomiary. Przedstawiono problem związany z danymi referencyjnymi zawartymi w modelu, które nie w pełni odpowiadają strukturze polskiej kolei oraz przedyskutowano wpływ innych składników obliczeń na uzyskiwane wyniki. W referacie zasygnalizowano również możliwość wykorzystania omawianej metody do generowania dynamicznych map hałasu.

Pozycja nr 380

Typ pozycji: referat konferencyjny

Autorzy M. Reiter, B. Kostek

Tytuł angielski Comparison of railway noise prediction results for passenger trains using various models

Konferencja Acoustics 08

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Paryż, Francja

Data konferencji 29.6.2008- 4.7.2008

Abstract Railway noise modeling is a requirement for all European countries. Under the European Directive on the Assessment and Management of Environmental Noise, 2002/49/EC all member states were obliged to create strategic noise maps of the major railways by June 30th, 2007. Some of the participating states have their own national schemes dedicated to noise prediction. For those not having their own noise prediction model, the recommendation is to use the Dutch SRM II Model. The most important assessment criterion is an inaccuracy value, which is defined as a difference between the results calculated based on a model and the actual measurements under the same atmospheric conditions simulated. Therefore, it is essential to check out which of the main calculation schemes produces most accurate results. Therefore, all above models were implemented numerically and calculations of the noise maps were performed with the use of: Schall 03 developed in Germany, Dutch SRM II and the Nordic model engineered in Scandinavia. Those models were tested employing sample passenger trains data exploited in Gdansk, Poland. Noise maps were drawn in Cadna A software and then were compared to field noise measurement test results.

Pozycja nr 381

Typ pozycji: referat konferencyjny

Autorzy M. Reiter, B. Kostek

Tytuł angielski Monitoring of Environmental Noise - Noise Source Modeling for Polish Passenger Trains

Konferencja 1st International Conference on Information Technology

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 18.5.2008- 21.5.2008

Abstract The study performed is a part of the project devoted to monitoring of environmental noise. The result of the IMAGINE noise source prediction model implementation based on reference data of that model is presented in this paper together with the main objectives of the realized study. The model implementation outcome is compared with the real-life measurement results and discrepancies between prediction and measurement results are determined. Problems of reference data that are not fully applicable to Polish railway structure are described in details. Moreover, the problem of a proper assignment of the distance between the noise meter location and the track centerline is also discussed. A possibility to apply this method to dynamic noise mapping is covered as well.

Pozycja nr 382

Typ pozycji: referat konferencyjny

Autorzy M. Reiter, B. Kostek

Tytuł angielski Implementation problems of IMAGINE noise source model for Polish passenger trains

Konferencja Joint Baltic-Nordic Acoustic Meeting

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Reykjavik, Islandia

Data konferencji 18.8.2008- 19.8.2008

Abstract The aim of this study is to check to what extent the noise source model implemented in IMAGINE project is applicable to Polish railway conditions. The analysis performed is a part of the project devoted to the monitoring of the environmental noise. The main objectives of the realized study include the IMAGINE noise source prediction model implementation based on reference data of that model. The model implementation is compared with the measurement results and discrepancies between prediction and measurement results are determined. Modeling is performed for the same measured atmospheric conditions. Problems of reference data that are not fully applicable to the Polish railway structure are described in details. Moreover, the problem of a proper assignment of the distance between the noise meter location and the track centerline is also discussed.

Pozycja nr 383

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski HEARING AID FITTING METHOD BASED ON FUZZY LOGIC PROCESSING

Tytuł polski PRZETWARZANIE ROZMYTE W METODZIE DOPASOWANIA APARATÓW SŁUCHOWYCH

Konferencja 55 Otwarte Seminarium z Akustyki OSA 2008

Numer preprintu

Numer

Wolumin

Strony 481 - 486

Miejsce konferencji Piechowice, Polska

Data konferencji 8.9.2008- 12.9.2008

Abstract One of the most important steps in a hearing aids fitting procedure is determining hearing dynamic characteristics. The hearing dynamic characteristics are typically calculated on the basis of loudness scaling test results. The problem is that the loudness scaling test results are presented on a loudness category scale, but a hearing prosthesis requires numerical parameters to be fed. A fuzzy logic method is useful for processing parameters expressed in human natural language. In this paper a fuzzy logic-based system for loudness scaling result processing is shortly presented. On the basis of the developed fuzzy system a way to shorten the loudness scaling test was found out.

Streszczenie Ważnym etapem dopasowania współczesnych aparatów słuchowych jest wyznaczanie charakterystyki dynamiki słuchu. Charakterystyka ta wyznaczana jest na podstawie wyników testu skalowania głośności. Niestety wyniki te wyrażone są w skali kategorii głośności, natomiast aparaty słuchowe wymagają para-metrów numerycznych. Problem ten można rozwiązać za pomocą logiki rozmytej. W niniejszym referacie przedstawiono metodę przetwarzania rozmytego wyników testu skalowania głośności. Na bazie opraco-wanej metody pokazano również sposób skrócenia testu skalowania głośności.

Pozycja nr 384

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, B. Kostek

Tytuł angielski DETERMINING THE NOISE IMPACT ON HEARING USING PSYCHOACOUSTICAL NOISE DOSIMETER

Tytuł polski Określenie wpływu hałasu na słuch przy użyciu psychoakustycznego dozymetru hałasowego

Konferencja 14th International conference on noise control NOISE CONTROL 07

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Elbląg, Polska

Data konferencji 3.6.2007- 6.6.2007

Abstract This research study presents the designed noise dosimeter based on psychoacoustical properties of the human hearing system and, at the same time, evaluation of time and frequency characteristics of noise. The designed noise dosimeter enables assessing temporary threshold shift (TTS) in critical bands in real time. In this way it is possible monitoring the hearing threshold shift continuously for people who stay in the harmful noise conditions. Moreover, the psychoacoustical noise dosimeter (PND) provides the functionality which determines time causing an increase of the assumed hearing threshold shift along with time required for recovery of a hearing threshold toward its initial value. Noise exposure levels, its duration along with hearing examination have been first measured in the acoustically controlled environment. Puretone audiometry has been used for hearing examination. This has been conducted in constant time intervals, during noise exposure as well as during resting time (time required for hearing recovery). The examination aims at measuring hearing threshold at 4 kHz. The important part of this study is validation of the dosimeter performance in the real noise exposure situation. In this case the whole noise measurement scenario encompasses both noise exposure effects, and hearing examination before and after noise exposure. The hearing examination has been extended by the distortion products otoacoustic emission method (DPOAE). The measurement results obtained in real conditions have been compared with those which were computed by means of the presented psychoacoustical noise dosimeter.

Streszczenie W pracy przedstawiono projekt i realizację nowego psychoakustycznego dozymetru hałasowego. Jego działanie jest oparte na uwzględnieniu własności psychoakustycznych słuchu oraz charakterystyki czasowej i częstotliwościowej hałasu. Opracowany dozymetr umożliwia estymację przesunięcia progu słyszenia w pasmach krytycznych w czasie rzeczywistym. Możliwe jest zatem ciągłe monitorowanie stanu słuchu osób przebywających w niekorzystnych warunkach akustycznych. Ponadto, opracowany dozymetr wyznacza czas niezbędny do odzyskania stanu słuchu sprzed ekspozycji. W pierwszej kolejności przedstawiono wyniki pomiarów wpływu hałasu na słuch uzyskane w warunkach laboratoryjnych. Badania słuchu wykonano za pomocą audiometrii tonalnej. W warunkach laboratoryjnych słuch badano w stałych interwałach czasowych, w czasie ekspozycji oraz w fazie odpoczynku. Wyznaczano próg słyszenia dla częstotliwości 4 kHz. Istotnym elementem pracy są badania porównawcze dotyczące poprawności działania psychoakustycznego dozymetru hałasowego w warunkach rzeczywistych. Badania te obejmowały ekspozycję na hałas, pomiary słuchu przed i po ekspozycji na hałas. Z kolei badania słuchu rozszerzono o badanie metodą otoemisji akustycznych produktów zniekształceń nieliniowych ślimaka (DPOAE). Wyniki uzyskane w warunkach rzeczywistych porównano z estymacją skutków ekspozycji na hałas, określoną przez opracowany dozymetr.

Pozycja nr 385

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, J. Kotus, B. Kostek

Tytuł angielski DETERMINING THE NOISE IMPACT ON HEARING USING PSYCHOACOUSTICAL NOISE DOSIMETER

Tytuł polski Określenie wpływu hałasu na słuch przy użyciu psychoakustycznego dozymetru hałasowego

Czasopismo Archives of Acoustics

Wolumin 32

Numer czasopisma 2

Strony 203 - 217

Rok 2007

Abstract This research study presents the designed noise dosimeter based on psychoacoustical properties of the human hearing system and, at the same time, evaluation of time and frequency characteristics of noise. The designed noise dosimeter enables assessing temporary threshold shift (TTS) in critical bands in real time. In this way it is possible monitoring the hearing threshold shift continuously for people who stay in the harmful noise conditions. Moreover, the psychoacoustical noise dosimeter (PND) provides the functionality which determines time causing an increase of the assumed hearing threshold shift along with time required for recovery of a hearing threshold toward its initial value. Noise exposure levels, its duration along with hearing examination have been first measured in the acoustically controlled environment. Pure-tone audiometry has been used for hearing examination. This has been conducted in constant time intervals, during noise exposure as well as during resting time (time required for hearing recovery). The examination aims at measuring hearing threshold at 4 kHz. The important part of this study is validation of the dosimeter performance in the real noise exposure situation. In this case the whole noise measurement scenario encompasses both noise exposure effects, and hearing examination before and after noise exposure. The hearing examination has been extended by the distortion products otoacoustic emission method (DPOAE). The measurement results obtained in real conditions have been compared with those which were computed by means of the presented psychoacoustical noise dosimeter.

Streszczenie W pracy przedstawiono projekt i realizację nowego psychoakustycznego dozymetru hałasowego. Jego działanie jest oparte na uwzględnieniu własności psychoakustycznych słuchu oraz charakterystyki czasowej i częstotliwościowej hałasu. Opracowany dozymetr umożliwia estymację przesunięcia progu słyszenia w pasmach krytycznych w czasie rzeczywistym. Możliwe jest zatem ciągłe monitorowanie stanu słuchu osób przebywających w niekorzystnych warunkach akustycznych. Ponadto, opracowany dozymetr wyznacza czas niezbędny do odzyskania stanu słuchu sprzed ekspozycji. W pierwszej kolejności przedstawiono wyniki pomiarów wpływu hałasu na słuch uzyskane w warunkach laboratoryjnych. Badania słuchu wykonano za pomocą audiometrii tonalnej. W warunkach laboratoryjnych słuch badano w stałych interwałach czasowych, w czasie ekspozycji oraz w fazie odpoczynku. Wyznaczano próg słyszenia dla częstotliwości 4 kHz. Istotnym elementem pracy są badania porównawcze dotyczące poprawności działania psychoakustycznego dozymetru hałasowego w warunkach rzeczywistych. Badania te obejmowały ekspozycję na hałas, pomiary słuchu przed i po ekspozycji na hałas. Z kolei badania słuchu rozszerzono o badanie metodą otoemisji akustycznych produktów zniekształceń nieliniowych ślimaka (DPOAE). Wyniki uzyskane w warunkach rzeczywistych porównano z estymacją skutków ekspozycji na hałas, określoną przez opracowany dozymetr.

Pozycja nr 386

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, Ł. Kosikowski

Tytuł angielski Virtual hearing aid – a computer application for simulating hearing aids performance

Tytuł polski Wirtualna proteza słuchu – komputerowa aplikacja do symulacji działania protez słuchu

Konferencja 122nd Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wiedeń, Austria

Data konferencji 5.5.2007- 8.5.2007

Abstract The virtual hearing aid is a computer application allowing an approximate simulation of hearing aid performance. The computer application implements algorithms simulating band-pass filters, compressors and also the perceptual masking strategies for audio signal processing. Individual persons' hearing characteristics were taken into account for this purpose. The experimental part comprises verification of engineered algorithms implemented to virtual hearing prosthesis. The paper contains also results of examinations of patients aimed at verifying the applicability of the proposed signal processing strategy to the domain of hearing prosthesis.

Streszczenie Wirtualna proteza słuchu to komputerowa aplikacja umożliwiająca symulację działania protezy słuchu. Aplikacja zawiera algorytmy filtracji pasmowej, kompresji dynamiki, a także koncepcje maskowania perceptualnego. W wirtualnej protezie słuchu wykorzystano rzeczywiste charakterystyki słyszenia wybranych osób. W części eksperymentalnej przedstawiono weryfikację zaproponowanych algorytmów. W referacie zamieszczono także wyniki badań pacjentów przerowadzone w celu sprawdzenia zaproponowanej strategii cyfrowego przetwarzania sygnałów do zastosowań w protezach słuchu.

Słowa kluczowe APARATY SŁUCHOWE, CYFROWE PRZETWARZANIE DŹWIEKÓW, PROCESORY SYGNAŁOWE

Pozycja nr 387

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Dalka, M. Kulesza, Ł. Kosikowski, B. Kostek, P. Suchomski

Tytuł angielski Contactless Hearing Aid

Tytuł polski Bezkontaktowy aparat słuchowy

Konferencja Z okazji Międzynarodowego Dnia Niesłyszących

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Warszawa, Polska

Data konferencji 28.9.2007- 28.9.2007

Uwagi plakat

Abstract It is essential to correct the infants hearing loss as soon as possible in order to prevent disturbing of speech development process. Commonly used hearing aids weared in ear canal are not suitable for infants. The novel approach to corection of hearing loss for infants in first months of life is presented. None part of the device contact the infants body.

Streszczenie Korekcję wady słuchu niemowlęcia należy rozpocząć jak najwcześniej w celu umożliwienia prawidłowego rozwoju ośrodka mowy. Typowe rozwiązania aparatów montowanych za uchem bądź w kanale usznym dziecka nie najlepiej nadają się do terapii niemowląt (duże rozmiary, zakłócenie wzrostu i rozwoju ucha zewnętrznego i kanału słuchowego). Zaprezentowano aparat dla niemowląt, który nie wymaga kontaktu z ciałem i może wspomóc rozwój dziecka w pierwszych miesiącach życia.

Pozycja nr 388

Typ pozycji: referat konferencyjny

Autorzy P. Żwan, B. Kostek

Tytuł angielski A system for singing training

Tytuł polski System do nauki śpiewu

Konferencja Otwarte Seminarium z Akustyki

Numer preprintu

Numer

Wolumin

Strony 132 - 133

Miejsce konferencji Rzeszów-Przemyśl, Polska

Data konferencji 10.9.2007- 14.9.2007

Abstract The system proposed is aimed at the vocal students and persons who want to improve emission of their voices. The goal is not to substituite a singing teacher but to provide a tool for automatic teaching of voice emission basics. In this way singers can develop their vocal skills and improve them. By a visual feedback a student can control and modify vocal tract maximas (resonances) of a chosen vowel to match the resonances of the qualified singers. The application analyses a single wovel, because the frequencies and level of resonances differ for different vowels. The application provides at the same time instructions how to modify vocal tract to change presented parameters, those tips are prepared with the cooperation of a singing teacher and also based on the singing voice literature. To enable singers to train themselves an option to judge their progressing is envisaged.

Streszczenie Zaproponowany system jest skierowany do ludzi ktorzy chcą samodzielnie nauczyć się podstaw emisji głosu. Celem nie jest zastąpnienie nauczyciela wokalnego. Przez sprzężenie zwrotne osoba może monitorować parametry swojego śpiewu w czasie rzeczywistym i odnieść od parametrów głosów szkolonych, jednocześnie otrzymując wskazówki w jaki sposób poprawić parametry głosu. Wskazówki te przygotowane są przez nauczycieli głosu oraz pochodzą z literatury.

Pozycja nr 389

Typ pozycji: referat konferencyjny

Autorzy J. Wójcik, B. Kostek

Tytuł angielski COMPUTATIONAL COMPLEXITY OF ALGORITHM CREATING HYPERMETRIC RHYTHMIC HYPOTHESES

Tytuł polski Analiza złożoności obliczeniowej metod tworzenia hipotez rytmicznych

Konferencja 12th International Symposium on Sound and Vision Engineering and Mastering

Numer preprintu

Numer

Wolumin

Strony 1 - 6

Miejsce konferencji Gdańsk, PL

Data konferencji 15.6.2007- 16.6.2007

Uwagi materiały elektroniczne, ISBN 978-83-60779-02-6

Abstract This paper presents an analysis of computational complexity of algorithm creating rhythmic hypotheses, worked out by the authors and presented in their previous works. In the paper the algorithm is presented first. Then the analyses of computational complexity of three phases of the algorithm, namely creating periods, creating simplified hypotheses and creating full hypotheses are presented. The analyses of computational complexity take into consideration the assumption that the method engineered is expected to rank rhythmic hypotheses built of three rhythmic levels above the meter. Keywords: music information retrieval, rhythm retrieval, metric rhythm

Streszczenie Zwiększone w ostatnim czasie zainteresowanie naukowców dziedziną wyszukiwania informacji muzycznej związane jest ze stale zwiększającą się liczbą dokumentów muzycznych zgromadzonych w elektronicznych bibliotekach oraz w Internecie. Metody wyszukiwania w oparciu o zawartość plików multimedialnych są zazwyczaj złożone obliczeniowo, jednak wzrost wydajności obliczeniowej komputerów, a także prace naukowców nad modyfikacjami algorytmów pod kątem minimalizacji ich złożoności obliczeniowej powodują, że systemy wykorzystujące opracowane metody zwracają wyniki swej pracy w czasie akceptowalnym przez użytkowników. Tematem tego referatu jest analiza złożoności obliczeniowej metody tworzenia hipotez rytmicznych w aspekcie wykorzystania zbioru utworzonych hipotez do ich porządkowania, gdyż aspekt ten jest często zaniedbywany w pracach dotyczących wyszukiwania informacji muzycznej. Słowa kluczowe: multimedia, informatyka muzyczna, systemy wyszukiwania muzyki, rytm

Pozycja nr 390

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Szczuko

Tytuł angielski Computational Intelligence–Aided Character Animation

Tytuł polski Inteligentne wspomaganie komputerowej animacji postaci

Konferencja V Krajowa Konferencja Technologie Informacyjne

Numer preprintu

Numer

Wolumin

Strony 117 - 134

Miejsce konferencji Gdańsk, Polska

Data konferencji 20.5.2007- 23.5.2007

Uwagi PWNT, seria Automatyka i Informatyka-Technologie informacyjne,Diagnostyka:Inteligentne wydobywanie informacji w celach diagnostycznych, red.Z. Kowalczuk, B. Wiszniewski

Abstract Methods of computer animation together with evaluation methods of animation quality were presented. A short review of computational intelligence methods employed to animation is also given. The presented study concerns animation of motion of a character, motion expression charge, and analysis of real captured motion by means of traditional animation with key-frames. Rules known from the traditional animation are cited. A system for automatic motion phase extraction and classification from real motion data and key-frame animation was designed. Parameters describing motion phases are extracted for character’s bones. Data designated for the system input provide semantic descriptors, which are processed by the fuzzy logic engine. The system is able to find animations that are best described with the given descriptor. The Rough Set Exploration System was employed to evaluation of the quality of animated characters.

Streszczenie W pracy przedstawiono pokrótce metody animacji komputerowej, a także podano zasady oceny jakości wyniku animacji postaci. Dodatkowo dokonano przeglądu metod inteligentnych stosowanych w animacji komputerowej i w dziedzinach pokrewnych. W badaniach skupiono się na animacji ruchu w kontekście uzyskiwanej ekspresji. Podano reguły stosowane w animacji tradycyjnej oraz wyznaczono parametry opisujące fazy ruchu w odniesieniu do poszczególnych kości szkieletu animowanych postaci. Skonstruowano system, którego zadaniem jest klasyfikowanie faz ruchu animowanego zgodnie z kryteriami zawartymi w regułach animacji tradycyjnej. Dane podawane do systemu stanowią określenia formułowane w języku naturalnym, następnie są one przetwarzane przez algorytm wnioskowania rozmytego. Do celów oceny jakości ruchu animowanych postaci wykorzystano aplikację Rough Set Exploration System, opartą na zbiorach przybliżonych.

Projekt badawczy DS

Pozycja nr 391

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski APPLYING COMPUTATIONAL INTELLIGENCE TO ACOUSTICS

Czasopismo Archives of Acoustics

Wolumin 32

Numer czasopisma 3

Strony 617 - 629

Rok 2007

Abstract The aim of this paper is to review some selected computational techniques that find application in acoustics and in particular to sound engineering. The presented research studies involved using artificial neural networks, rough set method, fuzzy logic, genetic algorithms and other soft computing techniques. The investigated problems are related to classification of musical instrument sounds, musical phrases recognition, intelligent music processing, computer control of classical pipe organ instruments, and quality assessment. Keywords: Musical Acoustics, Musical informatics, Music Information Retrieval, Soft Computing, Classical Pipe Organ

Streszczenie W artykule przedstawiono przegląd wybranych zagadnień związanych z zastosowaniem metod inteligencji obliczeniowej w akustyce. Zaprezentowane metody obejmują m.in. sztuczne sieci neuronowe, zbiory przyblizone, logikę rozmytą, algorytmy genetyczne. Problematyka akustyczna dotyczy z kolei klasyfikacji dźwięków muzycznych, inteligentnego przetwarzania muzyki, inteligentnego sterowania trakturą organową oraz obiektywizacji metody oceny jakości subiektywnej. Słówa kluczowe: alsutyka, metody inteligencji obliczeniowej, inofrmatyka muzyczna, organy klasyczne

Pozycja nr 392

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Dalka, M. Kulesza, Ł. Kosikowski, B. Kostek, P. Suchomski

Tytuł angielski Contactless Hearing Aid

Tytuł polski Bezkontaktowy aparat słuchowy

Konferencja Technicon

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Gdańsk, Polska

Data konferencji 23.10.2007- 25.10.2007

Uwagi plakat

Abstract It is essential to correct the infants hearing loss as soon as possible in order to prevent disturbing of speech development process. Commonly used hearing aids weared in ear canal are not suitable for infants. The novel approach to corection of hearing loss for infants in first months of life is presented. None part of the device contact the infants body.

Streszczenie Korekcję wady słuchu niemowlęcia należy rozpocząć jak najwcześniej w celu umożliwienia prawidłowego rozwoju ośrodka mowy. Typowe rozwiązania aparatów montowanych za uchem bądź w kanale usznym dziecka nie najlepiej nadają się do terapii niemowląt (duże rozmiary, zakłócenie wzrostu i rozwoju ucha zewnętrznego i kanału słuchowego). Zaprezentowano aparat dla niemowląt, który nie wymaga kontaktu z ciałem i może wspomóc rozwój dziecka w pierwszych miesiącach życia.

Pozycja nr 393

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, Ł. Kosikowski, L. Śliwa, H. Skarżynski

Tytuł angielski Examining possibilities of transmitting signals to inner ear employing bone-conductive ultrasound carrier

Tytuł polski Badanie możliwości transmisji sygnałów do ucha wewnętrznego z wykorzystaniem przewodnictwa kostnego ultradźwięków.

Konferencja 6th European Congress of Oto-Rhino-Laryngology, Head and Neck Surgery

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wiedeń, Austria

Data konferencji 30.6.2007- 4.7.2007

Uwagi plakat

Abstract The ultrasound harmonic signal was modulated with some harmonic tones of various frequency and level. The „ultrasound audiogram” was determined on this basis revealing the possibility to transmit low-frequency modulation components to the inner ear basing on ultrasound bone conduction. The bone-conductive ultrasound transmission characteristics were estimated during the experiment in which 2 ultrasound transducers were utilized: the first one acting as an excitor and the second one as a monitor. It was found that the ultrasound bone conduction may influence shape of tonal audiograms. Therefore, the experimental results demonstrate the possibility to receive of ultrasounds by the cochlea through bone conduction.

Streszczenie Ultradźwiękowy sygnał harmoniczny został zmodulowany kilkoma tonami harmonicznymi o różnej czestotliwości i poziomie. Uzyskany na tej podstawie „audiogram ultradźwiękowy” ujawnia możliwość transmisji komponentów niskoczęstotliwoścowych do ucha wewnętrznego bazując na ultradźwiękowym przewodnictwie kostnym. Charakterystyki przenoszenia ultradźwięków poprzez przewodnictwo kostne wyznaczono z wykorzystaniem 2 przekaźników ultradźwiękowych: pierwszy pełnił funkcje pobudzającą, a drugi monitorującą. Zauważono, że przewodnictwo kostne ultradźwięków może wpływać na kształt audiogramów tonalnych. Wyniki eksperymentu demonstrują możliwości odbioru ultradźwięków przez ślimak drogą przewodnictwa kostnego.

Słowa kluczowe PRZEWODNICTWO KOSTNE, TRANSMISJA ULTRADŹWIEKÓW, MASKOWANIE

Pozycja nr 394

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, J. Kotus, M. Szczodrak, P. Dalka

Tytuł angielski Multimedia Noise Monitoring System

Tytuł polski Multimedialny System Monitorowania Hałasu

Konferencja 56 Brussels Eureka 2007

Numer preprintu

Numer

Wolumin

Strony 34 - 35

Miejsce konferencji Bruksela, Belgia

Data konferencji 23.11.2007- 27.11.2007

Abstract A concept and an implementation of the Multimedia Noise Monitoring System (MNMS) is presented in the application. Nowadays, environmental pollution caused by noise is extremely high, especially in cities and rises systematically. Because of the wide range of noxious effects of noise on a human organism, noise level monitoring is very important. The system developed constitutes a significant improvement in the domain of continuous monitoring of noise and accelerates the process of city acoustical map creation. The principal aim of the project is to improve the effectiveness of prophylaxis of hearing diseases. It allows to receive, store, analyze and visualize noise data coming from noise measurement equipments and from electronic questionnaires accessible through the Internet. The MNMS has a functionality to determine the noise emission level for selected kinds of noise sources (for road and rail noise sources). Moreover, the MNMS contains a new kind of the authors’ concept of the psychoacoustic noise dosimetry. The designed noise dosimeter enables asessing temporary threshold shift (TTS) during noise exposure. In this way it is possible to monitor the hearing threshold shift continuously for people who stay in the harmful noise conditions.

Streszczenie W zgłoszeniu przedstawiono Multimedialny System Monitorowania Hałasu (MSMH). Projekt jest internetowym serwisem poświęconym monitorowaniu zagrożeń hałasem. Współcześnie zanieczyszczenie hałasem, szczególnie w miastach, jest niezwykle wysokie i wciąż systematycznie wzrasta. Ze względu na szeroki zakres niekorzystnego oddziaływania hałasu na organizm człowieka bardzo istotne jest monitorowanie poziomu hałasu. Opracowany system stanowi istotny krok w dziedzinie usprawniania ciągłego pomiaru hałasu i znacząco przyspiesza proces tworzenia map akustycznych miast. Jego nadrzędnym celem jest zwiększenie skuteczności w zakresie profilaktyki chorób słuchu. Umożliwia pobieranie, gromadzenie, analizę i wizualizację danych dotyczących hałasu, pobieranych ze zdalnych urządzeń pomiarowych oraz elektronicznych ankiet dostępnych przez Internet. MSMH posiada funkcjonalność umożliwiającą określanie poziomów emisyjnych wybranych rodzajów źródeł hałasu (źródło hałasu drogowego i kolejowego). Ponadto MSMH zawiera autorską koncepcję psychoakustycznego dozymetru hałasowego. Dozymetr ten umożliwia wyznaczenie czasowego przesunięcia progu słyszenia podczas trwania ekspozycji na hałas. Możliwe jest dzięki temu ciągłe monitorowanie progu słyszenia osób przebywających w warunkach szkodliwego oddziaływania hałasu.

Pozycja nr 395

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, B. Kostek

Tytuł angielski Application of the psychoacoustic noise dosimeter for the determination of noise impact on hearing

Tytuł polski Zastosowanie psychoakustycznej dozymetrii hałasowej do określenia wypływu hałasu na słuch

Konferencja Inter-Noise 2007

Numer preprintu

Numer

Wolumin

Strony 10

Miejsce konferencji Istanbuł, Turcja

Data konferencji 28.8.2007- 31.8.2007

Abstract The new research results regarding the noise impact on hearing applying the authors’ concept of the psychoacoustic noise dosimetry (PND) were presented in the paper. In the fist part the noise and hearing examination conducted in the acoustically controlled environment were shown. The noise level was equal to 88 dB(A). The band-pass white noise, limited to the range of 1–6 kHz was used as a stimulus signal. The hearing threshold was examined using pure-tone audiometry for 4 kHz only. This experiment depended on simultaneous measuring both noise and hearing. Firstly, hearing was examined directly before the noise exposure. Next, the noise exposure phase started. The hearing was examined every 10 minutes for particular person. The total time of noise exposure was equal to 30 minutes. The hearing examinations were conducted also during subjects’ resting time (time required for hearing recovery). The main aim of this research was to determine the time constant of the TTS effect disappearance. The results were used for the optimization of the designed PND performance. In the last part of the paper the validation of the PND was presented considering real noise exposure conditions. In the course of further research the noise impact on hearing for this purpose was carried-out. The hearing of attendees was examined twice in this case, directly before and immediately after the noise exposure. The pure-tone audiometry and the distortion products otoacoustic emission method (DPOAE) were used. The extended noise dose analysis was performed on the basis of the obtained results employing the PND algorithm. The presented PND algorithm reflects correctly the hearing temporary threshold shift (TTS) changes produced by the noise. The computing of such parameters as: a real time assessment of the TTS in critical bands, time required for recovery of a hearing threshold to its initial value enables a very precise determination of hearing abilities of subjects under noise exposure.

Streszczenie W referacie przedstawiono nowe wyniki badań wpływu hałasu na słuch z zastosowaniem autorskiej koncepcji psychoakustycznej dozymetrii hałasowej. W pierwszej części pracy przedstawiono wyniki badań hałasu i słuchu przeprowadzone w warunkach laboratoryjnych. Poziom hałasu wynosił 88 dB(A). Sygnałem testowym był szum biały, odfiltrowany do przedziału częstotliwości 1000 – 6000 Hz. Próg słyszenia badano za pomocą audiometrii tonalnej dla częstotliwości 4 kHz. Eksperyment polegał na jednoczesnym pomiarze hałasu i charakterystyk słyszenia. W pierwszej kolejności zbadano słuch bezpośrednio przed ekspozycją na hałas. Następnie rozpoczęła się faza ekspozycji. Co 10 minut poszczególnych osobom badano słuch, zarówno w fazie ekspozycji jak i odpoczynku. Całkowity czas przebywania w hałasie wynosił 30 minut. Celem badań było wyznaczenie stałych czasowych zmian efektu czasowej zmiany progu słyszenia (TTS). Wyniki zostały wykorzystane do optymalizacji opracowanego psychoakustycznego dozymetru hałasowego. W ostatniej części pracy zamieszczono informacje na temat weryfikacji opracowanego dozymetru, przeprowadzonej w warunkach rzeczywistego narażenia na hałas. W tym celu przeprowadzono badania wpływu hałasu na próg słyszenia osób przebywających w klubach studenckich. W tym przypadku badania słuchu wykonano dwukrotnie, bezpośrednio przed i po ekspozycji na hałas. Wykorzystano metodę audiometrii tonalnej oraz badanie otoemisji akustycznej produktów zniekształceń nieliniowych ślimaka (DPOAE). Na podstawie uzyskanych wyników pomiarów przeprowadzono rozszerzoną analizę dozymetryczną z zastosowaniem dozymetru psychoakustycznego. Opracowany algorytm we właściwy sposób odzwierciedla zmiany progu słyszenia wywołane hałasem. Wyznaczanie takich parametrów jak: aktualne przesunięcie progu słyszenia, czas niezbędny do powrotu progu słyszenia do stanu początkowego, w czasie trwania ekspozycji umożliwia bardzo dokładną kontrolę stanu słuchu osób narażonych na hałas.

Pozycja nr 396

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, J. Kotus, B. Kostek, M. Szczodrak

Tytuł angielski Multimedia Noise Monitoring System

Tytuł polski Multimedialny System Monitorowania Hałasu

Czasopismo Bezpieczeństwo Pracy

Wolumin

Numer czasopisma 7-8

Strony 8 - 11

Rok 2007

Abstract A concept and an implementation of the multimedia computer system for the monitoring of environmental noise threats is presented. The principal aim of the project is to improve the effectiveness of prophylaxis of hearing diseases. It allows to receive, store, analyze and visualize a noise data coming from noise measurement equipments and from electronic questionnaires accessible through the Internet. Moreover a new kind of the authors’ concept of the psychoacoustic noise dosimetry was also presented in the paper. The designed noise dosimeter enables to assess temporary threshold shift (TTS) during noise exposure. In this way it is possible to monitor the hearing threshold shift continuously for people who stay in the harmful noise conditions.

Streszczenie W artykule przedstawiono Multimedialny System Monitorowania Hałasu. Projekt jest sieciocentrycznym systemem dedykowanym monitorowaniu zagrożeń hałasem. Jego nadrzędnym celem jest zwiększenie skuteczności w zakresie profilaktyki chorób słuchu. Umożliwia pobieranie, gromadzenie, analizę i wizualizację danych dotyczących hałasu, pobieranych ze zdalnych urządzeń pomiarowych oraz elektronicznych ankiet dostępnych przez Internet. Ponadto w artykule przedstawiono autorską koncepcję psychoakustycznego dozymetru hałasowego. Dozymetr ten umożliwia wyznaczenie czasowego przesunięcia progu słyszenia podczas trwania ekspozycji na hałas. Możliwe jest dzięki temu ciągłe monitorowanie progu słyszenia osób przebywających w warunkach szkodliwego oddziaływania hałasu.

Pozycja nr 397

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Żwan, B. Kostek, P. Szczuko, A. Czyżewski

Tytuł angielski Automatic Singing Voice Recognition Employing Neural Networks and Rough Sets

Czasopismo Lecture Notes In Artificial Intelligence-proc. of Rough Sets and Intelligent Systems Paradigms

Wolumin

Numer czasopisma 4585

Strony 793 - 802

Rok 2007

Abstract The aim of the research study presented in this paper is the automatic singing voice recognition. For this purpose a database containing singers’ sample recordings has been constructed and parameters are extracted from recorded voices of trained and untrained singers of various voice types. Parameters, which are especially designed for the analysis of the singing voice are described and their physical interpretation is given. Decision systems based on artificial neutral networks and rough sets are used for automatic voice type/voice quality classification. Results obtained in the automatic classification performed by both decision systems are then compared and conclusions are derived.

Streszczenie Celem prac opisanych w referacie jest automatyczne rozpoznawanie głosów śpiewaczych. Do tego celu utworzona została baza nagrań próbek śpiewu profesjonalnego i amatorskiego. Próbki poddane zostały parametryzacji parametrami zaproponowanymi przez autorów ściśle do tego celu. Sposób wyznaczenia parametrów i ich interpretacja fizyczna przedstawione są w referacie. Parametry wprowadzane są do systemów decyzyjnych, klasyfikatorów opartych o sztuczne sieci neuronowe oraz o zbiory przybliżone. Zadaniem klasyfikatorów jest określenie typu i jakości głosu. Zawarto porównanie wyników uzyskanych dla sieci neuronowych i zbiorów przybliżonych. Podano wnioski.

Pozycja nr 398

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Odya, B. Kostek, P. Szczuko

Tytuł angielski New Generation Artificial Larynx

Tytuł polski Nowe narzędzia dla osób laryngektomowanych

Konferencja

Numer preprintu 7285

Numer

Wolumin

Strony

Miejsce konferencji Nowy Jork, USA

Data konferencji 5.10.2007- 8.10.2007

Abstract The aim of the presented paper is to show a new generation of devices for laryngectomy patients. The artificial larynx has many disadvantages. The major problem is a background noise caused by the device. There are two different approaches to solve this task. The first one focuses on the artificial larynx. The artificial larynx engineered was equipped with a digital processor and an amplifier. Two algorithms, namely spectral subtraction algorithm and the comb filter were proposed for noise reduction. The second approach employs PDA to generate speech. A speech synthesis is performed, allowing for playing back any sentence, therefore any text can be entered by a user, and played through PDA speaker.

Streszczenie Celem badań opisanych w pracy było opracowanie urządzeń nowej generacji dla osób laryngektomowanych. Typowa sztuczna krtań ma wiele wad. Najpoważniejszym problemem jest warkot generowany przez urządzenie. Zaproponowane zostały dwa rozwiązania majace na celu wyeliminowania tego problemu. Pierwsze skupia się na zmianach w konstrukcji sztucznej krtani. Opracowane urządzenie zostało dodatkowo wyposażone w cyfrowy procesor i wzmacniacz. W celu redukcji zakłóceń wykorzystano dwa algorytmy: odejmowanie widmowe i filtrację grzebieniową. Drugie rozwiązanie bazuje na komputerze typu PDA służacym do generowania mowy. Wykorzystano algorytmy syntezy mowy, co pozwala na odtwarzanie dowolnych wypowiedzi.

Pozycja nr 399

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, J. Wójcik, P. Szczuko

Tytuł angielski Searching for Metric Structure of Musical Files

Czasopismo Lecture Notes In Artificial Intelligence-proc. of Rough Sets and Intelligent Systems Paradigms

Wolumin

Numer czasopisma 4585

Strony 774 - 783

Rok 2007

Abstract The aim of this paper is to compare the effectiveness of various computational intelligence approaches applied to the task of retrieving musical rhythm from musical symbolic files. The study presented in this paper describes how Artificial Neural Networks and Rough Sets can be used for searching the metric structure of musical files. The described approaches are based on examining physical attributes of sound that are most significant in determining the placement of a particular sound in the accented location of a musical piece. The results of the experiments show that the approach based solely on duration is sufficient enough to retrieve the metric structure of rhythm from musical files.

Streszczenie Celem opisywanych prac jest porównanie efektywności wybranych metod sztucznej inteligencji w wyznaczaniu rytmu dla zapisu symbolicznego muzyki. Opisano sposób wykorzystania sztucznych sieci neuronowych i zbiorów przybliżonych do poszukiwania właściwej struktury rytmicznej utworu. Analizowane są fizyczne atrybuty dźwięku, które są najbardziej znaczące dla określenia położenia dźwięku na pozycji akcentowanej lub nieakcentowanej. Wyniki eksperymentów wykazały, iż analiza wyłącznie długości dźwięku jest wystarczająca dla uzyskania poprawnej struktury rytmicznej.

Pozycja nr 400

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Microelectronics applications to communication senses diagnostics and therapy

Tytuł polski Zastosowania mikroelektroniki do diagnostyki i terapii zmysłów komunikacji

Konferencja IX Konferencja Naukowa - Technologia Elektronowa (ELTE)

Numer preprintu

Numer

Wolumin P-8

Strony 36

Miejsce konferencji Kraków, Polska

Data konferencji 4.9.2007- 7.9.2007

Abstract Taking advantage of the recent progress in Digital Signal Processor (DSP) developments, a portable and reprogrammable digital hearing aid can be easily designed. Furthermore, taking into account the-state-of-the-art in the research in the microelectronics, it is possible to produce a sophisticated hearing aid in which complex algorithms of signal processing will be implemented. The hearing aid developed and algorithms engineered will be demonstrated in the course of this paper. Another microelectronic technology application to hearing aids is the proposed contactless hearing aid is designated to be attached to the infant’s crib for sound amplification in a free field. It consists of electret microphone matrix, and a prototype DSP board. The compressed speech is transmitted and amplified via miniature loudspeakers. Algorithms that are worked out deal with parasitic feedback, which occurs due to the small distance between microphone and monitors in terms of potentially high amplification required. Tinnitus (ear noises) are usually defined as perceived sound sensation without acoustic external stimuli. Utilizing ear noise maskers often brings desired effects in reducing bothersome effects of Tinnitus. The new approach to Tinnitus induces the invention of new more effective methods of diagnosing and treatment, which can be called as an “ear dithering”. The approach uses microelectronic technology to produce a small wearable ultrasound Tinnitus masker which will be discussed during the paper presentation. The method of transposition of speech frequency is applied to a digital speech corrector, also called SDSA (Subminiature Digital Speech Aid). The device has an ultra-compact digital signal processor DSP and is used for testing a number of algorithms for correcting stuttering. By using the DSP processor we can process the speech sound in real time. Thanks to this, the small device can hold more complicated methods of correction. The technology standing behind the device will be discussed in the course of the paper. Another microelectronic technology serving speech impaired patients is artificial larynx. The artificial larynx engineered was equipped with a digital processor and an amplifier. The spectral subtraction algorithm for noise reduction was utilized. In this method, an average signal spectrum and average noise spectrum are estimated and subtracted from each other, thus average signal-to-noise ratio (SNR) is improved. The second approach uses a PDA (portab1e digital assistant) to generate synthetic speech. Finally, state-of-the-art assistive technologies helping blind and visually impaired patients will be reviewed and demonstrated on the basis of some advanced research examples.

Streszczenie Postępy technologiczne w dziedzinie cyfrowego przetwarzania sygnałów umożliwiają projektowanie reprogramowalnych cyfrowych protez słuchu, wykorzystujących złożone algorytmy przetwarzania sygnałów fonicznych. Referat prezentuje opracowane i zaiplementowane algorytmy cyfrowych protez słuchu. Innym tego typu zastosowaniem technologii mikroelektronicznych jest bezkontaktowa proteza słuchu, mocowana w łóżeczku niemowlęcia, będąca przedmiotem oryginalnego opracowania. Podstawowy problem techniczny, jakim jest eliminacja pasożytniczych sprzężeń zwrotnych w tego typu aplikacji jest rozwiązywany prze algorytm cyfrowego przetwarzania sygnałów zaimplementowany na skosntruowanym module procesora sygnałowego. Koleja część referatu dotyczy problematyki szumów usznych (Tinnitus). Dla potrzeb pacjentów cierpiących na ten rodzaj dolegliwości słuchowej opracowano aplikację wykorzystującą linearizację charakterystyki kwantyzacji sygnałów akustycznych na drodze słuchowej. Cyfrowe przetwarzanie sygnałów zastosowane w miniaturowym urządzeniu dla osób jąkających się o nazwie SDSA poprawia płynność mowy, zaś najnowsza aplikacja wykorzystująca przetwarzanie sygnału mowy jest wdrażana w postaci sztucznej krtani dla osób laryngektomowanych oraz syntetyzera mowy. Ostatnia część referatu dotyczy przeglądu zastosowań mikroelektroniki w protetyce osób ociemniałych. Słowa kluczowe: cyfrowe przetwarzanie sygnałów; aparaty słuchowe; korektor mowy; syntetyzer mowy; pomoce dla niewidomych

Pozycja nr 401

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Szwoch, B. Kostek

Tytuł angielski Waveguide model of the hearing aid earmold system

Tytuł polski Modelowanie falowodowe akustycznego układu aparatu słuchowego

Czasopismo Diagnostic Pathology

Wolumin 1

Numer czasopisma 6

Strony

Rok 2006

Uwagi http://www.diagnosticpathology.org/content/1/1/6

Abstract Background The earmold system of the Behind-The-Ear hearing aid is an acoustic system that modifies the spectrum of the propagated sound waves. Improper selection of the earmold system may result in deterioration of sound quality and speech intelligibility. Computer modeling methods may be useful in the process of hearing aid fitting, allowing physician to examine various earmold system configurations and choose the optimum one for the hearing aid user. Methods In this paper, a computer model adequate for this task is proposed. This model is based on the waveguide modeling method. The waveguide model simulates the propagation of sound waves in the system of cylindrical tubes. Frequency response of the hearing aid receiver is simulated in the model and the influence of the ear canal and the eardrum on the earmold system is taken into account. The model parameters are easily calculated from parameters of a physical hearing aid system. Transfer function of the model is calculated and frequency response plots are obtained using the Matlab system. Results The frequency response plots of the earmold model were compared to the measurement plots of the corresponding physical earmold systems. The same changes in frequency responses caused by modification of length or diameter of a selected waveguide section, are observed in both measurement data of a real earmold system and in computed model responses. Conclusion Comparison of model responses obtained for various sets of parameters with measurement data proved that the proposed model accurately simulates the real earmold system and the developed model may be used to construct a computer system assisting the physician who performs earmold system fitting.

Pozycja nr 402

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, J. Kotus, A. Czyżewski

Tytuł angielski Noise Threat Impact on Hearing in Schools and Students' Music Clubs

Tytuł polski Badania zagrożeń hałasowych i ich wpływu na słuch w szkołach i klubach studenckich

Konferencja Inter-Noise 2006

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Honolulu, Hawaii, USA

Data konferencji 3.12.2006- 6.12.2006

Abstract The study aimed at showing results of a survey on noise threat which was conducted in schools and students' music clubs. The measurements of the acoustic climate employed engineered telemetry stations for continuous noise monitoring. At the same time, physiological effects of noise were measured among pupils and students. Hearing tests were performed twice, before and after noise exposure. For this purpose otoacoustic emission method (DPOAE) was utilized. The obtained results of the noise measurements revealed that an unfavorable noise climate was found in the examined schools and music clubs. This was also confirmed by the subjective examination results. The noise dose analysis taking into consideration an average time spent by pupils in schools was also performed. It revealed that noise at schools didn't constitute a risk for hearing system of the pupils, however it may be considered as an essential source of annoyance. On the other hand, noise in music clubs surpassed all permitted noise limits, thus could be treated as dangerous to hearing. Hearing tests conducted revealed changes in cochlea activity of students' examined, also Tinnitus effect was experienced temporarily. New noise annoyance & noise threat criteria were proposed and verified based on the acquired and analyzed data.

Streszczenie W referacie przedstawiono wyniki badań zagrożeń hałasowych w szkołach i muzycznych klubach studenckich. Pomiary klimatu akustycznego przeprowadzono za pomocą opracowanej, telemetrycznej stacji do ciągłego monitorowania hałasu oraz w formie ankiet. Badania słuchu przeprowadzono dwukrotnie, przed i po ekspozycji na hałas. Wykorzystano metodę otoemisji akustycznych produktów nieliniowych ślimaka (DPOAE). W czasie ekspozycji na hałas mierzono również subiektywne efekty psychologiczne wśród uczniów i studentów. Uzyskane wyniki pomiarów hałasu ujawniły niesprzyjający klimat akustyczny, który występował w szkołach i klubach. Wyniki badań obiektywnych zestawiono z subiektywnymi wynikami uzyskanymi za pomocą ankiet. Przedstawiono również analizę dozymetryczną z uwzględnieniem średniego czas przebywania uczniów w szkole oraz studentów w klubach. Uzyskane wyniki wykazały, że hałas w rozpatrywanych szkołach nie stanowi zagrożenia dla słuchu uczniów, jednak może być uznany za istotne źródło uciążliwości. Z kolei hałas panujący w klubach znacznie przekraczał poziomy dopuszczalne, może zatem stanowić zagrożenie dla słuchu. Uzyskane wyniki pomiarów słuchu wykazały istotne zmiany w aktywności ślimaka u badanych studentów. Dodatkowo osoby badane sygnalizowały wystąpienie czasowego szumu usznego (Tinnitus) w następstwie ekspozycji na hałas. Zaproponowano nowe kryteria oceny uciążliwości i zagrożenia hałasem, a także zweryfikowano je w oparciu o uzyskane wyniki pomiarów.

Pozycja nr 403

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Szczuko

Tytuł angielski Rough Set-Based Application to Recognition of Emotionally-Charged Animated Character’s Gestures

Tytuł polski Wykorzystanie zbiorów przybliżonych do rozpoznawania gestykulacji animowanej postaci nacechowanej emocjonalnie

Czasopismo Transactions on Rough Sets

Wolumin 5

Numer czasopisma

Strony 146 - 166

Rok 2006

Abstract This research study is intended to analyze emotionallycharged animated character’s gestures. Animation methods and rules are first shortly reviewed in this paper. Then the experiment lay-out is presented. For the purpose of the experiment, the keyframe method is used to create animated objects characterized by differentiating emotions. The method comprised the creation of an animation achieved by changing the properties of a temporal structure of an animated sequence. The sequence is then analyzed in terms of identifying the locations and spacing of keyframes, as well as the features that could be related to emotions present in the animation. On the basis of this analysis several parameters contained in feature vectors describing each object emotions at key moments are derived. The labels are assigned to particular sequences by viewers participating in subjective tests. This served as a decision attribute. The rough set system is used to process the data. Rules related to various categories of emotions are derived. They are then compared with the ones used in traditional animation. Also, the most significant parameters are identified. The second part of the experiment is aimed at checking the viewers’ ability to discern less dominant emotional charge in gestures. A time-mixing method is proposed and utilized for the generation of new gestures emotionally-charged with differentiated intensity. Viewers’ assessment of the animations quality is presented and analyzed. Conclusions and future experiments are shortly outlined.

Projekt badawczy DS

Pozycja nr 404

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Music Information Retrieval seen from the Communication Technology Perspective

Tytuł polski Technologia wyszukiwania informacji muzycznej w zasobach internetowych

Konferencja Joint Congress of the Acoustic Society of America & Japan Acoustical Society

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Honolulu, USA

Data konferencji 28.11.2006- 2.12.2006

Uwagi wyd. Journal Acoust. Soc. Am., 120 (5), Pt. 2, Nov. 2006, 3236

Abstract Music Information Retrieval (MIR) is a multi-discipline area. Within this domain one can see various approaches to musical instrument recognition, musical phrase classification, melody classification (e.g. query-by-humming systems), rhythm retrieval, high-level-based music retrieval such as looking for emotions in music or differences in expressiveness, music search based on listeners’ preferences. One may also find research which tries to correlate low-level descriptor analysis to high-level human perception. Researchers from musical acoustics, musicology and music domains on one side, and communication technology on the other side work together within this area. This may foster a framework for broader and deeper comprehension of contributions from all these disciplines and in addition translate the automated access to music information, gathered in various forms around the World Wide Web, as a fully understandable process to all participants regardless of their background. The semantic description is becoming a basis of the next web generation. Several important concepts have been introduced recently by the researchers associated with the MIR community with regard to semantic data processing including techniques for computing with words. In this presentation some aspects related to MIR are shortly reviewed in the context of possible and actual applications of ontology-based approach to this domain.

Streszczenie Wyszukiwanie informacji muzycznej cieszy się obecnie dużym zainteresowaniem naukowców różnych dziedzin. W referacie przedstawiono aspekty interdyscyplinarne tej dziedziny oraz podano główne założenia związane z automatycznym wyszukiwaniem informacji muzycznej. Słowa kluczowe: wyszukiwanie informacji muzycznej, ontologie muzyczne, bazy muzyczne

Pozycja nr 405

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, K. Kochanek, H. Skarżyński

Tytuł angielski Dithering Strategy Applied to Tinnitus Masking

Tytuł polski Nowe podejście do maskowania szumów usznych

Konferencja 120th Audio Eng. Society Convention

Numer preprintu 6856

Numer

Wolumin

Strony 1 - 8

Miejsce konferencji Paris, Francja

Data konferencji 20.5.2006- 23.5.2006

Uwagi J. Audio Eng. Soc., vol. 54, 7/8, 738-739

Abstract The hypothesis on the existence of a parasitic quantization, that accompanies hearing loss has been formulated in this work, and then related to other existing theories on causes of Tinnitus. Some preliminary experiments have been carried out, that targeted at verifying the correctness of the proposed interpretation of applied maskers employing dither theory. An effective method of providing a masking signal that uses bone conductivity was derived for the purpose of these experiments. The results of the experiments initially confirm the analogy between the threshold phenomena occurring in the digital audio circuits and ear noises origin. The presented results may induce the elaboration of more effective ear therapies based on high-frequency dither having specially formed spectral characteristics.

Streszczenie W referacie przedstawiono teorię wyjaśniającą zjawisko szumów usznych na gruncie akustyki, elektroniki i telekomunikacji. Spostrzeżenie, że słuch jest w istocie akustycznym układem transmisyjnym, skłania do poszukiwania interpretacji powstawania szumów usznych w ogólnej teorii spontanicznego generowania szumu w układach transmisyjnych. Sformułowana hipoteza wskazuje na istnienie pasożytniczej kwantyzacji, która pojawia się w sytuacji wystąpienia ubytku słuchu, dlatego została ona powiązana z teoriami, dotyczącymi przyczyn powstawiania szumów usznych. W ramach prac badawczych zostały przeprowadzone wstępne badania, mające na celu weryfikację zasadności zaproponowanej interpretacji sposobu działania maskera. Dla celów realizacji eksperymentów została opracowana skuteczna metoda podawania sygnału maskującego z wykorzystaniem kostnego przewodnictwa dźwięku. Wyniki przeprowadzonych badań potwierdzają występowanie analogii pomiędzy zjawiskami progowymi, które występują w elektronicznych układach transmisji sygnałów fonicznych z kwantyzacją i zjawiskami związanymi ze slyszeniem i powstawaniem szumów usznych, co może prowadzić do stworzenia bardziej skutecznych metod terapii. Słowa kluczowe: audiologia, szumy uszne, ultradźwięki, audiometria, słuch, efekt maskowania, dither, pasożytnicza kwantyzacja, układ transmisyjny

Pozycja nr 406

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, H. Skarżyński, B. Kostek

Tytuł angielski "I Can Hear" - a system for universal hearing screening

Tytuł polski "Słyszę..." - system badań przesiewowych słuchu

Konferencja Inter Noise 2006. The 35th International Congress and Exposition on Noise Control Engineering

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Honolulu, USA

Data konferencji 3.12.2006- 6.12.2006

Abstract Hearing impairment is one of the fastest growing diseases of modern society. This kind of impairment is often introduced by excessive noise. Therefore it is important to organise mass scale screening tests to identify people suffering from this kind of impairment. "I Can Hear…" provides a Web-based test that uses automatic questionnaire analysis, audiometric tone test procedures, and assesses speech intelligibility in noise. When all the testing is completed, "I Can Hear…" automatically analyses the results for each person examined. Based on the number of incorrect answers, the decision is made automatically by the expert system: does the person have normal hearing or does he or she have hearing problems and require to be examined in one of the consulting centres. Those whose hearing impairment is confirmed will be referred to treatment.

Streszczenie System "Słyszę..." jest usługą dostępną w Internecie, która służy do prowadzenia przesiewowych badań słuchu. Wykorzystywane są trzy rodzaje badań: ankieta eleketroniczna, testy audiometryczne i testy zrozumiałości mowy w szumie. W wyniku analizy odpowiedz pacjentów, system ekspercki podejmuje decyzję o zakwalifikowaniu badanej osoby do grupy osób nie mających problemów ze słuchem lub do grupy osób cierpiących na niedosłuch. Słowa kluczowe: badanie słuchu; audiometria

Pozycja nr 407

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, B. Kostek

Tytuł angielski INVESTIGATION OF NOISE THREATS AND THEIR IMPACT ON HEARING IN SELECTED SCHOOLS – A PILOT STUDY

Tytuł polski BADANIA ZAGROŻEŃ HAŁASOWYCH I ICH WPŁYWU NA SŁUCH W WYBRANYCH SZKOŁACH – BADANIA PILOTAŻOWE

Czasopismo Archives of Acoustics

Wolumin 31

Numer czasopisma 4

Strony 417 - 424

Rok 2006

Uwagi Supplement

Abstract Noise measurements conducted in selected schools in Gdansk area are presented in this paper. The main aim of this research was to determine noise threats at schools. Some objective measurements of the acoustic climate were performed employing a noise monitoring station engineered at the Multimedia System Department, Gdansk University of Technology. Simultaneously, subjective noise annoyance examinations were carried out among pupils in chosen schools. The survey includes a noise analysis in places of residence, music preferences and preliminary hearing tests results taken after the exposure to noise during breaks. Hearing tests employing a distortion product otoacoustic emission (DPOAE) method, have been performed twice -- before and after the exposure to noise. The noise dose analysis based on average time spent by a pupil at school is also presented. The obtained results reveal that an unfavorable noise climate occurred in surveyed schools. This was also confirmed by the results of the subjective examinations. The conducted hearing tests did not reveal essential changes in the cochlea activity of examined pupils. This means that the noise during breaks and physical exercises did not constitute a risk to their hearing system. However, it may be considered as an essential source of annoyance.

Streszczenie W artykule przedstawiono wyniki pomiarów hałasu przeprowadzonych w wybranych szkołach na terenie Trójmiasta. Celem przeprowadzonych badań było określenie zagrożeń hałasem w szkołach. Przeprowadzono obiektywne badania klimatu akustycznego za pomocą opracowanej w Katedrze Systemów Multimedialnych PG stacji monitorowania hałasu. Jednocześnie przeprowadzono badania subiektywnej uciążliwości hałasu wśród uczniów rozpatrywanych szkół. Badania ankietowe rozszerzono o analizę hałasu w miejscu zamieszkania oraz upodobania muzyczne. W referacie przedstawiono również wstępne wyniki badań słuchu po ekspozycji na hałas panujący podczas przerw i w czasie trwania zajęć wychowania fizycznego. Słuch mierzono przed i po ekspozycji na hałas. Do badania słuchu wykorzystano metodę otoemisji akustycznej produktów nieliniowych ślimaka (DPOAE). Przedstawiono również analizę dozymetryczną z uwzględnieniem średniego czas przebywania uczniów w szkole. Uzyskane wyniki pomiarów hałasu wykazały, że w rozpatrywanych szkołach panował niekorzystny klimat akustyczny. Ten stan potwierdziły również wyniki badań subiektywnych. Przeprowadzone badania słuchu nie wykazały istotnych zmian w aktywności ślimaka u badanych osób. Oznacza to, że hałas panujący podczas przerw i w czasie trwania zajęć sportowych nie stanowił zagrożenia dla słuchu uczniów. Jest jednak istotnym źródłem uciążliwości.

Pozycja nr 408

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Timbre Representation for Automatic Classification of Musical Instruments

Tytuł polski Reprezentacja parametryczna barwy dźwięku w zastosowaniach do automatycznej klasyfikacji instrumentów muzycznych

Konferencja Joint Congress of the Acoustic Society of America & Japan Acoustical Society

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Honolulu, USA

Data konferencji 28.11.2006- 2.12.2006

Uwagi wyd. Journal Acoust. Soc. Am., 120 (5), Pt. 2, Nov. 2006, p. 3276

Abstract Human communication includes the capability of recognition. This is particularly true of auditory communication. Music information retrieval (MIR) turns out to be particularly challenging, since many problems remain still unsolved. Topics that should be included within the scope of MIR are: automatic classification of musical instruments/ phrases/styles, music representation and indexing, estimating musical similarity using both perceptual and musicological criteria, recognizing music using audio and/or semantic description, language modeling for music, auditory scene analysis, and others. Many features of music content description are based on perceptual phenomena and cognition. However, it can easily be observed that most of low-level descriptors used for example in musical instrument classification are more data- than human-oriented. This is because the idea behind these features is to have data defined and linked in such a way as to be able to use it for more effective automatic discovery, integration, and re-use in various applications. The ambitious task is, however, to provide seamless meaning to low- and high-level descriptors such as timbre descriptors and linking them together. In such a way data can be processed and shared by both systems and people. This paper presents a study related to timbre representation of musical instrument sounds.

Streszczenie W referacie przedstawiono zagadnienia związane z reprezentacją parametryczną muzyki. Wyszukiwanie informacji muzycznej (Music Information Retrieval) obejmuje wiele dziedzin, jak np. automatyczną klasyfikację dżwięków instrumentów muzycznych, fraz, stylów muzycznych, automatyczne indeskowanie muzyki, reprezentację semantyczna - budowę ontologii muzycznych, itp. Zagadnieniem, które wymaga dalszych badań jest stworzenie wektora parametrów, który opisywałby barwę dźwięku za pomocą pojęć typu: dźwięk jasny, czysty, ciemny, itd. Słowa kluczowe: informatyka muzyczna, reprezentacja parametryczna, barwa dźwięku, automatyczna klasyfikacja informacji muzycznej

Pozycja nr 409

Typ pozycji: referat konferencyjny

Autorzy A. Walkowiak, B. Kostek, A. Lorens, A. Czyżewski, A. Obrycka, A. Wąsowski

Tytuł angielski Simulation of electric hearing - influence of simulation parameters on quality of output signal

Tytuł polski Wpływ wybranych parametrów symulacji słuchu elektrycznego na jakość sygnału mowy

Konferencja I Konferencja Audiologiczno-Foniatryczna

Numer preprintu

Numer

Wolumin

Strony 98

Miejsce konferencji Warszawa, Polska

Data konferencji 10.9.2006- 12.9.2006

Uwagi Audiofonologia-Suplement, str. 98

Streszczenie W środowisku programistycznym Matlab stworzono symulację słuchu elektrycznego pacjenta implantowanego. W symulacji zastosowano algorytm przetwarzania wykorzystywany w komercyjnych systemach implantów ślimakowych - CIS (Continuous Interleaved Sampling). W pracy zbadano wpływ ilości kanałów, jak i innych parametrów sygnałów wyjściowych przy zastosowaniu sygału mowy jako sygnału wejściowego symulacji. Słowa kluczowe: audiologia, implant ślimakowy, algorytmy przetwarzania

Pozycja nr 410

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski APPLICATIONS OF COMPUTATIONAL INTELLIGENCE TECHQNIUES TO ACOUSTICS

Tytuł polski Zastosowania metod inteligentnych w akustyce

Czasopismo Modelowanie inżynierskie

Wolumin 32

Numer czasopisma tom 1

Strony 273 - 280

Rok 2006

Abstract The aim of this paper was to review some chosen applications of computational techniques to acoustics and in particular to sound engineering. The presented research studies employed artificial neural networks, rough set method, fuzzy logic, genetic algorithms, Pawlak’s flow graphs and other soft computing techniques. The investigated problems were devoted to classification of musical instrument sounds, musical phrases, and intelligent music processing, and also to the domain of computer control of classical organ instruments.

Streszczenie Celem artykułu jest przegląd wybranych zastosowań metod inteligentnych w akustyce, a w szczególności w szeroko rozumianej inżynierii dźwięku. Przedstawione badania i eksperymenty były prowadzone w oparciu o sztuczne sieci neuronowe, metodę zbiorów przybliżonych, logiką rozmytą, grafy przepływowe Pawlaka oraz algorytmy genetyczne. Rozwiązywane problemy dotyczyły klasyfikacji dźwięków muzycznych, rozpoznawania fraz muzycznych, przetwarzania muzyki, sterowania klasycznymi organami piszczałkowymi oraz oceny jakości w akustyce. Słowa kluczowe: akustyka, metody inteligentne, logika rozmyta, zbiory przybliżone, automatyczna klasyfikacja informacji muzycznej

Pozycja nr 411

Typ pozycji: książka

Autorzy B. Kostek, P. Dalka, A. Czyżewski

Tytuł angielski Audiovisual Speech Recognition for Training Hearing Impaired Patients

Tytuł polski Automatyczne rozpoznawanie mowy na potrzeby treningu osób z wadami słuchu

Wydawca World Scientific

Strony 335 - 347

Rok 2006

Uwagi rozdział w książce zagranicznej Mathematical Methods in Scattering Theory And Biomedical Engineering: Proceedings of the Seventh International Workshop, D.I. Fotiadis, C., V. Massala, Eds.

Abstract This study presents isolated phoneme recognition system combining both visual and acoustical data. The Active Shape Model method is used for extracting visual speech features from the shape and movement of the lips. This method consists in a model-based approach for extracting speech information from image sequences. Its advantage over the image-based approach stems from the fact that important features are represented in a low-dimensional space and are normally invariant to translation, rotation, scaling and illumination. The Mel Frequency Cepstral Coefficients (MFCCs) are used as the acoustic speech features in the speech recognition system. MFCCs are based on the short-term spectrum. The power spectrum bins are grouped and smoothed according to the perceptually motivated Mel frequency scaling. Then the spectrum is segmented into critical bands. Finally, a discrete cosine transform is applied to the logarithm of the filter bank output signal resulting in vectors of decorrelated MFCCs features. A three-layer feed-forward artificial neural network (ANN) is used in the experiments related to speech recognition. Feature vectors extracted combine both modalities of the human speech. A matrix, containing feature vectors calculated during the utterance, forms an input to the ANN. To make the results of speech classification robust against the changes in the utterance duration, an interpolation is used to compute feature vectors. Additional experiments with the degraded acoustical information are carried out in order to test the system robustness against various distortions affecting the signals. The system engineered utilizing only the visual information correctly classifies properly nearly 80% of the speech utterances. This result is very satisfying taking into account a huge similarity between lip movements during articulation of vowels and a great diversity of lip shapes originating from the anatomical features and the way of speaking. Results of classification based on the acoustical information are much better than the ones based on the visual information. However, utilizing both modalities in the speech recognition system further improves the effectiveness. Moreover this makes the system much more robust against distortions in the audio signal. A software is prepared employing above mentioned algorithms to be used by cochlear implanted patients in the process of speech training. An interactive application was conceived making possible organizing the interactive speech training sessions without any assistance from speech therapists. This method consists in a model-based approach for extracting speech information from image sequences. Its advantage over the image-based approach stems from the fact that important features are represented in a low-dimensional space and are normally invariant to translation, rotation, scaling and illumination. MFCCs are based on the short-term spectrum. The power spectrum bins are grouped and smoothed according to the perceptually motivated Mel frequency scaling. Then the spectrum is segmented into critical bands. Finally, a discrete cosine transform is applied to the logarithm of the filter bank output signal resulting in vectors of decorrelated MFCCs features. A matrix, containing feature vectors calculated during the utterance, forms an input to the ANN. To make the results of speech classification robust against the changes in the utterance duration, an interpolation is used to compute feature vectors. Additional experiments with the degraded acoustical information are carried out in order to test the system robustness against various distortions affecting the signals. The system engineered utilizing only the visual information correctly classifies properly nearly 80% of the speech utterances. This result is very satisfying taking into account a huge similarity between lip movements during articulation of vowels and a great diversity of lip shapes originating from the anatomical features and the way of speaking. Results of classification based on the acoustical information are much better than the ones based on the visual information. However, utilizing both modalities in the speech recognition system further improves the effectiveness. Moreover this makes the system much more robust against distortions in the audio signal. A software is prepared employing above mentioned algorithms to be used by cochlear implanted patients in the process of speech training. An interactive application was conceived making possible organizing the interactive speech training sessions without any assistance from speech therapists.

Streszczenie Niniejszy rozdział stanowi rozszerzenie referatu przedstawionego na konferencji 7th Mathematical Methods in Scattering Theory and Biomedical Engineering. Rozdział ten przedstawia system rozpoznawania izolowanych głosek mowy wykorzystujący dane wizualne i akustyczne. Modele Active Shape Models zostały wykorzystane do wyznaczania parametrów wizualnych na podstawie analizy kształtu i ruchu ust w nagraniach wideo. Parametry akustyczne bazują na współczynnikach melcepstralnych. Sieć neuronowa została użyta do rozpoznawania wymawianych głosek na podstawie wektora cech zawierającego oba typy parametrów. Dodatkowo zbadano odporność systemu na zakłócenia w sygnale dźwiękowym.

Pozycja nr 412

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, J. Wójcik

Tytuł polski Zastosowanie metodyki analizy hipotez rytmicznych do przeszukiwania

Konferencja Krajowe Sympozjum Telekomunikacji i Teleinformatyki KSTiT 2006

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Bydgoszcz, Polska

Data konferencji 13.9.2006- 15.9.2006

Uwagi Materiały elektroniczne

Streszczenie W referacie przedstawiano metodykę analizy melodycznych i rytmicznych wzorców do przeszukiwania rozległych baz muzycznych. Zaproponowano metodę hybrydową wyszukiwania wiodącego rytmu w oparciu o zbiór najbardziej obiecujących metod porządkowania hipotez rytmicznych. W oparciu o tę metodykę zaprojektowano system DrumAdd do analizy plików muzycznych w formacie symbolicznym MIDI. System generuje automatycznie akompaniament perkusyjny dla zadanej melodii w oparciu o hipotezę hipermetryczną, znajdującą się na wysokim miejscu w rankingu wśród wszystkich znalezionych dla danego utworu hipotez. W referacie opisano eksperymenty związane z wyszukiwaniem rytmu w celu zastosowania proponowanych metod w systemie automatycznego akompaniamentu perkusyjnego. Słowa kluczowe: muzyka, automatyczne wyszukiwanie rytmu, rytm, ranking hipotez hipermetrycznych, format MIDI

Pozycja nr 413

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Kulesza, P. Dalka, B. Kostek

Tytuł angielski Contactless hearing aid for infants

Tytuł polski Bezkontaktowy aparat słuchowy dla niemowląt

Czasopismo Archives of Acoustics

Wolumin 31

Numer czasopisma 3

Strony 356 - 356

Rok 2006

Uwagi Streszczenie

Abstract It is a well known fact that language development through home intervention for a hearing-impaired infant should start in the early months of a newborn baby's life. The aim of this paper is to present a concept of a contactless digital hearing aid designed especially for infants. In contrast to all typical wearable hearing aid solutions (ITC, ITE, BTE), the proposed device is mounted in the infant’s bed with any parts of its set-up contacting the infant’s body. A processed speech signal is emitted by low-power loudspeakers placed near the infant’s head. The hearing aid architecture employs a digital signal processor based on Texas Instruments technology. Since one of the main problems is the acoustic feedback between the microphone and the loudspeakers, the methods of its elimination are also briefly reviewed in this article. The first of the discussed methods employs an adaptive algorithm, the second alters the frequency response of the entire instrumentation through the use of notch filter banks, and the third incorporates a microphone array and beam-forming techniques. The paper also includes descriptions of some algorithmic solutions engineered by the authors in purpose to eliminate acoustic feedbacks. All the conclusions introduced in this article have been derived based on the simulations of an experimental contactless hearing aid set-up.

Streszczenie Powszechnie wiadomo, iż korekcja wad słuchu niemowląt powinna się rozpoczynać już w pierwszych miesiącach życia dziecka. Pozwala to uniknąć zaburzenia rozwoju mowy dziecka. W publikcji przedstawiono koncepcję cyfrowego, bezkontaktowego aparatu słuchowego dla niemowląt. W przeciwieństwie do typowych aparatów słuchowych (noszonych za uchem lub wewnątrz kanału słuchowego), proponowane urządzenie umieszczane jest w łóżeczku dziecka i żaden jego element nie styka się z jego ciałem. Cyforowo przetworzony sygnał mowy emitowany jest przez miniaturowe głośniki umieszczone w okolicach głowy dziecka. Aparat zbudowany został w oparciu o procesor sygnałowy Texas Instruments. Jako że jednym z głównych problemów w takiej konfiguracji są pasożytnicze sprzężenia zwrotne w artykule przedstawiono metody ich eliminacji. Pierwsza z omawianych metod wykorzystuje algorytm adaptacyjny, druga natomiast bank filtrówe wycinających. Trzecia metoda wykorzystuje matryce mikrofonów oraz algorytm filtracji przestrzennej. Artykuł zawiera również opis rozwiązań związanych z eliminacją sprzęzeń proponowanych przez autorów. Wnioski z badań wyciągnięto na podstawie przeprowadzonych eksperymentów.

Pozycja nr 414

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Kotus, B. Kostek

Tytuł angielski Investigation of Noise Threats and Their Impact on Hearing in Selected Schools

Czasopismo Journal of the International Telemedicine Academy

Wolumin 1

Numer czasopisma 2

Strony 18 - 22

Rok 2006

Abstract Noise measurements conducted in selected schools in Gdansk area are presented in this paper. The main aim of this research was to determine noise threats at schools. Some objective measurements of the acoustic climate were performed employing a noise monitoring station engineered at the Multimedia System Department, Gdansk University of Technology. Simultaneously, subjective noise annoyance examinations were carried out among pupils in chosen schools. The survey includes a noise analysis in places of residence, music preferences and preliminary hearing tests results taken after the exposure to noise during breaks. Hearing tests employing a distortion product otoacoustic emission (DPOAE) method, have been performed twice -- before and after the exposure to noise. The noise dose analysis based on average time spent by a pupil at school is also presented. The obtained results reveal that an unfavorable noise climate occurred in surveyed schools. This was also confirmed by the results of the subjective examinations. The conducted hearing tests did not reveal essential changes in the cochlea activity of examined pupils. This means that the noise during breaks and physical exercises did not constitute a risk to their hearing system. However, it may be considered as an essential source of annoyance.

Pozycja nr 415

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Kulesza, B. Kostek, P. Dalka, A. Czyżewski

Tytuł angielski Contactless hearing aid for infants

Tytuł polski Bezkontaktowy aparat słuchowy dla niemowląt

Czasopismo Archives of Acoustics

Wolumin 31

Numer czasopisma 4

Strony 431 - 437

Rok 2006

Abstract It is a well known fact that language development through home intervention for a hearing-impaired infant should start in the early months of a newborn baby's life. The aim of this paper is to present a concept of a contactless digital hearing aid designed especially for infants. In contrast to all typical wearable hearing aid solutions (ITC, ITE, BTE), the proposed device is mounted in the infant’s bed with any parts of its set-up contacting the infant’s body. A processed speech signal is emitted by low-power loudspeakers placed near the infant’s head. The hearing aid architecture employs a digital signal processor based on Texas Instruments technology. Since one of the main problems is the acoustic feedback between the microphone and the loudspeakers, the methods of its elimination are also briefly reviewed in this article. The first of the discussed methods employs an adaptive algorithm, the second alters the frequency response of the entire instrumentation through the use of notch filter banks, and the third incorporates a microphone array and beam-forming techniques. The paper also includes descriptions of some algorithmic solutions engineered by the authors in purpose to eliminate acoustic feedbacks. All the conclusions introduced in this article have been derived based on the simulations of an experimental contactless hearing aid set-up.

Streszczenie Powszechnie wiadomo, iż korekcja wad słuchu niemowląt powinna się rozpoczynać już w pierwszych miesiącach życia dziecka. Pozwala to uniknąć zaburzenia rozwoju mowy dziecka. W publikcji przedstawiono koncepcję cyfrowego, bezkontaktowego aparatu słuchowego dla niemowląt. W przeciwieństwie do typowych aparatów słuchowych (noszonych za uchem lub wewnątrz kanału słuchowego), proponowane urządzenie umieszczane jest w łóżeczku dziecka i żaden jego element nie styka się z jego ciałem. Cyforowo przetworzony sygnał mowy emitowany jest przez miniaturowe głośniki umieszczone w okolicach głowy dziecka. Aparat zbudowany został w oparciu o procesor sygnałowy Texas Instruments. Jako że jednym z głównych problemów w takiej konfiguracji są pasożytnicze sprzężenia zwrotne w artykule przedstawiono metody ich eliminacji. Pierwsza z omawianych metod wykorzystuje algorytm adaptacyjny, druga natomiast bank filtrówe wycinających. Trzecia metoda wykorzystuje matryce mikrofonów oraz algorytm filtracji przestrzennej. Artykuł zawiera również opis rozwiązań związanych z eliminacją sprzęzeń proponowanych przez autorów. Wnioski z badań wyciągnięto na podstawie przeprowadzonych eksperymentów.

Pozycja nr 416

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Fuzzy logic application for computer animation

Tytuł polski Zastosowanie przetwarzania rozmytego w animacji komputerowej

Konferencja Inżynieria wiedzy i systemy ekspertowe

Numer preprintu

Numer

Wolumin 2

Strony 287 - 296

Miejsce konferencji Wrocław, Polska

Data konferencji 21.6.2006- 23.6.2006

Abstract Expert system generating computer animation is designed. It is assumed that traditional animation rules can be utilized alongside with fuzzy logic processing in the system to shorten animation preparation process and maintain visual quality of human-made animation. The input of the system consists of simple animation and desired motion description. All necessary phases are inserted into the output animation to achieve readable and interesting motion. Rules in fuzzy logic decision system are transcribed from natural language rules of traditional animation, and then new rules are being generated, utilizing the rough set approach. The system structure is described along with an experimental scenario proposed. Next, data mining procedure and creation of fuzzy reasoning module are outlined. The system is used for creation of new animations which will be compared to human-made examples.

Streszczenie Referat przedstawia projekt systemu ekspertowego do tworzenia animacji komputerowych. Założono, iż wykorzystanie reguł animacji tradycyjnej i przetwarzania rozmytego może przyspieszyć proces tworzenia animacji komputerowych i pozwoli uzyskiwać animacje o wysokiej jakości wizualnej, nie ustępujące anima-cjom przygotowanym w całości przez animatora. Wejściem do systemu jest prosta animacja oraz opis ruchu pożądanego przez użytkownika. Wyjściowa animacja uzupełniana jest o niezbędne fazy ruchu, w celu uzy-skania wersji czytelnej i atrakcyjna wizualnie. Reguły systemu decyzyjnego pochodzą z transkrypcji reguł animacji z języka naturalnego na zdania logiczne oraz z drążenia danych z wykorzystaniem metody zbiorów przybliżonych. Opisano strukturę systemu i sposób jego wykorzystania, procedurę wydobywania wiedzy z animacji treningowych, budowę modułu wnioskowania. System wykorzystany zostanie do stworzenia serii animacji, które ostatecznie w teście subiektywnym porównane będą z animacjami tworzonymi w całości przez animatora.

Projekt badawczy DS

Pozycja nr 417

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, K. Kochanek, M. Kulesza, P. Suchomski

Tytuł angielski Hearing aid operating in acoustical free field

Tytuł polski Aparat słuchowy działający w wolnym polu akustycznym

Konferencja I Konferencja Audilogiczno-Foniatryczna

Numer preprintu

Numer

Wolumin

Strony 11

Miejsce konferencji Warszawa, Polska

Data konferencji 10.9.2006- 12.9.2006

Uwagi Audiofonologia-Suplement, str. 11

Streszczenie Aparatowanie bardzo małych dzieci (od 5 miesiąca życia) za pomocą standardowych protez słuchu natrafia na wiele trudności natury praktycznej. Dotyczy to procesu dopasowania aparatu słuchowego, czyli doboru jego ustawień stosownie do aktualnych charakterystyk ubytku słuchu dzieci. Tymczasem wczesne aparatowanie jest zagadnieniem o ogromnym zanczeniu dla rozwoju słuchu, mowy i ogólnej inteligencji dziecka. Referat prezentuje uzyskane wyniki praktycznych prób i eksperymentów w tym zakresie, które otwierają drogę do opracowania bezkontaktowego aparatu słuchowego.

Pozycja nr 418

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Dalka, B. Kostek, A. Czyżewski

Tytuł angielski Vowel Recognition Based On Acoustic And Visual Features

Tytuł polski Rozpoznawanie samogłosek bazujące na parametrach akustycznych i wizualnych

Czasopismo Archives of Acoustics

Wolumin 31

Numer czasopisma 3

Strony 275 - 288

Rok 2006

Abstract The aim of the research work presented is to show a system that may facilitate speech training for hearing impaired people. The system engineered combines both acoustic and visual vowel data acquisition and analysis modules. The acoustic feature extraction involves mel-cepstral analysis. The Active Shape Model method is used for extracting visual speech features from the shape and movement of the lips. Artificial Neural Networks (ANNs) are utilized as the classifier, feature vectors extracted combine both modalities of the human speech. The system is validated with the recordings of speakers that were not used for the lip model creating and for the ANN training. Additional experiments with the degraded acoustic information are carried out in order to test the system robustness against various distortions affecting speech utterances.

Streszczenie W artykule zaprezentowano metodę, która może ułatwić naukę mowy dla osób z wadami słuchu. Opracowany system rozpoznawania samogłosek wykorzystuje łączną analizę parametrów akustycznych i wizualnych sygnału mowy. Parametry akustyczne bazują na współczynnikach mel-cepstralnych. Do wyznaczenia parametrów wizualnych z kształtu i ruchu ust zastosowano Active Shape Models. Jako klasyfikator użyto sztuczną sieć neuronową. Działanie systemu zostało przetestowane z wykorzystaniem nagrań mówców, które nie były wykorzystane ani do tworzenia modelu ust, ani do treningu sieci neuronowej. Dodatkowo zbadano wpływ zakłócania informacji akustycznej na uzyskiwane wyniki.

Pozycja nr 419

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, K. Kochanek, M. Kulesza, P. Dalka, P. Suchomski

Tytuł angielski Hearing Aid Operating in Acoustical Free Field

Tytuł polski Aparat słuchowy działający w polu swobodnym

Konferencja XLII Krajowy Zjazd Polskiego Towarzystwa Otorynolaryngologów Chirurgów Głowy i Szyi

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Poznań, Polska

Data konferencji 7.6.2006- 10.6.2006

Uwagi plakat

Abstract It is well known that language development through home intervention for hearing-impaired infant should start in the early months of a newborn baby. In the poster, a concept of a contactless digital hearing aid designed for infants is presented. In contrast to the typical wearable hearing aid solutions (ITC, ITE, BTE) the device proposed is mounted in the infant's bed. Any part of the hearing aid set-up contacts the infant's body. Processed speech signal is emitted by the low-power loudspeakers placed near the infant's head. The hearing aid architecture employs a digital signal processor based on Texas Instruments technology. Since one of the main problems is related to acoustic feedback between microphone and loudspeakers, therefore methods for acoustic feedback elimination are implemented in the hearing aid.

Streszczenie Jest wiadome, że korekcję wady słuchu nowo narodzonego dziecka należy rozpocząć jak najwcześniej w celu umożliwienia prawidłowego rozwoju ośrodka mowy. Plakat ten prezentuje koncepcję bezkontaktowego aparatu słuchowego przeznaczonego dla niemowląt. W przeciwieństwie do typowych rozwiązań montowanych za uchem bądź w kanale usznym dziecka (ITC, ITE, BTE) prezentowane urządzenie jest montowane w łóżeczku dziecka i żadna jego część nie styka się z jego ciałem. Przetworzony sygnał mowy jest emitowany przez miniaturowe głośniki umieszczone w pobliżu główki dziecka. W konstrukcji aparatu wykorzystano cyfrowy procesor sygnałowy firmy Texas Instruments. Ponieważ jednym z głównych problemów związanych z aparatami słuchowymi jest występowanie sprzężenia zwrotnego głośnikami i mikrofonem, aparat wykorzystuje również algorytmy eliminacji pasożytniczych sprzężeń akustycznych

Pozycja nr 420

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Odya

Tytuł angielski Digital Hearing Aid with time and spectral transposition

Tytuł polski Cyfrowy aparat słuchowy z transpozycją czasową i widmową

Konferencja I Konferencja Audiologiczno-Foniatryczna

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji

Data konferencji 10.9.2006- 12.9.2006

Uwagi Abstrakt w Audiofonologii, Suplement, 2006, str. 11

Abstract Recent screening hearing tests, which have been carried out in Poland, showed that many people suffer from hearing loss. Worse still, typical hearing aids are not able to help some particular groups of patients, e.g. newborn infants, people working in a noisy environment, aircraft pilots or patients with cochlear implants. Taking advantage of the recent progress in Digital Signal Processor (DSP) developments, a portable and reprogrammable digital hearing aid can be easily designed. Furthermore, taking into account the-state-of-the-art in the research in the digital signal processing domain, it is possible to produce in Poland a sophisticated hearing aid in which complex algorithms of signal processing will be implemented. Owing to hybrid signal processors, it was possible to implement algorithms of spectral and time transposition. The first method is designed for persons with corner-audiograms, who may retain residual hearing in a low frequency band. The latter method may be used in case of patients with time resolution problem. The aim of this poster is to present information about the hearing aid developed, algorithms engineered and to comment preliminary experiment results.

Streszczenie Następstwem uruchomienia w Polsce, prowadzonych na szeroką skalę, badań przesiewowych słuchu jest konieczność zaoferowania pomocy osobom cierpiącym na niedosłuch poprzez leczenie i protetykę słuchu. Tymczasem, aktualnie oferowane rozwiązania aparatów słuchowych nie są w stanie sprostać niektórym specjalistycznym potrzebom aparatowania, m. in.: najmłodszych dzieci, osób pracujących w hałasie, pilotów wojskowych oraz osób korzystających z implantów ślimakowych, u których dzięki zastosowaniu odpowiedniej techniki mikrochirurgicznej, zachowane zostały resztki słuchowe, dające możliwość dodatkowego wykorzystania stymulacji akustycznej i in.. Likwidacja barier importowych w dziedzinie technologii mikroelektronicznej umożliwiła nielimitowany dostęp do tej technologii w naszym kraju, co stwarza techniczną możliwość opracowywania rodzimej konstrukcji cyfrowych aparatów słuchowych o wysokim stopniu nowoczesności i miniaturyzacji. Stan rozwoju krajowych badań naukowych z dziedziny cyfrowego przetwarzania sygnałów akustycznych jest na tyle zaawansowany, że praktycznie nie istnieją bariery, które w ograniczałyby od strony technicznej możliwości opracowywania i wdrażania rodzimych konstrukcji cyfrowych aparatów słuchowych. Dostęp do tej technologii zminiaturyzowanych procesorów cyfrowych gwarantuje realizację podstawowego zadania, jakim jest opracowanie eksperymentalnego modelu wewnątrzusznego aparatu cyfrowego wraz z systemem jego dopasowania do potrzeb pacjenta przy wykorzystaniu oprogramowania komputerowego. Przedmiotem prezentacji jest dokonane opracowanie i wstępne próby kliniczne algorytmów cyfrowego przetwarzania sygnałów fonicznych do zastosowań w specjalnych protezach słuchu, takich jak: transpozycja widmowa i transpozycja czasowa dźwięku. Pierwszy rodzaj transpozycji jest przydatny dla pacjentów zachowujących resztkową czułość słuchu w postaci audiogramu narożnego, zaś transpozycja skali czasu jest pomocna pacjentom o pogorszonej rozdzielczości czasowej słuchu.

Pozycja nr 421

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Szwoch, B. Kostek

Tytuł angielski Waveguide model of the hearing aid earmold system

Tytuł polski Modelowanie falowodowe akustycznego układu aparatu słuchowego

Czasopismo Journal of the International Telemedicine Academy

Wolumin 1

Numer czasopisma 1

Strony 27 - 33

Rok 2006

Uwagi http://jita.telezdrowie.pl/issues/JITA1V1N1/JITA1V1N1-27.html

Abstract Background The earmold system of the Behind-The-Ear hearing aid is an acoustic system that modifies the spectrum of the propagated sound waves. Improper selection of the earmold system may result in deterioration of sound quality and speech intelligibility. Computer modeling methods may be useful in the process of hearing aid fitting, allowing physician to examine various earmold system configurations and choose the optimum one for the hearing aid user. Methods In this paper, a computer model adequate for this task is proposed. This model is based on the waveguide modeling method. The waveguide model simulates the propagation of sound waves in the system of cylindrical tubes. Frequency response of the hearing aid receiver is simulated in the model and the influence of the ear canal and the eardrum on the earmold system is taken into account. The model parameters are easily calculated from parameters of a physical hearing aid system. Transfer function of the model is calculated and frequency response plots are obtained using the Matlab system. Results The frequency response plots of the earmold model were compared to the measurement plots of the corresponding physical earmold systems. The same changes in frequency responses caused by modification of length or diameter of a selected waveguide section, are observed in both measurement data of a real earmold system and in computed model responses. Conclusion Comparison of model responses obtained for various sets of parameters with measurement data proved that the proposed model accurately simulates the real earmold system and the developed model may be used to construct a computer system assisting the physician who performs earmold system fitting.

Pozycja nr 422

Typ pozycji: referat konferencyjny

Autorzy M. Kulesza, P. Dalka, B. Kostek

Tytuł angielski Contactless Hearing Aid for Infants Employing Signal Processing Algorithms

Tytuł polski Bezkontaktowy aparat słuchowy dla niemowląt wykorzystujący algorytmy przetwarzania sygnału

Konferencja 121st Audio Engineering Society Convention

Numer preprintu 6983

Numer

Wolumin

Strony 1 - 12

Miejsce konferencji San Francisco, USA

Data konferencji 5.10.2006- 8.10.2006

Abstract The proposed contactless hearing aid is designated to be attached to the infant’s crib for sound amplification in a free field. It consists of 4 electret microphone matrix, and a prototype DSP board. The compressed speech is transmitted and amplified via miniature loudspeakers. Algorithms that are worked out deal with parasitic feedback, which occurs due to the small distance between microphone and monitors and potentially high amplification required. The beamforming algorithm is based on an artificial neural network (ANN). The ANN is used as a nonlinear filter in the frequency domain. Principles of algorithms engineered and the prototype DSP unit design are presented in the paper. Also, results of experiments simulating the real-life conditions are analyzed and discussed.

Streszczenie Zaprojektowany bezkontaktowy aparat słuchowy umiejscawiany jest w łóżeczku niemowlęcia. Aparat składający się z matrycy 4 mikrofonów oraz prototypowej karty z procesorem DSP pracuje w polu swobodnym. Przetworzony sygnał mowy emitowany jest z wykorzystaniem miniaturowych głośników. Opracowane algorytmy pozwalają na elminację akustycznych sprzężeń zwrotnych, które mogą wystepować ze względu na niewielką odległość mikrofonów od głośników i potencjalnie wysokie wzmocnienie protezy. Algorytm filtracji przestrzennej wykorzystuje sztuczną sieć neuronową, która dokonuje nieliniowej filtracji sygnału w dziedzinie widma. W referacie opisano zasady działania opracowanych algorytmów oraz prototyp protezy słuchu z procesorem DSP. Ponadto, przeanalizowano i poddano dyskusji wyniki eksperymentów przeprowadzonych w warunkach rzeczywistych.

Pozycja nr 423

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek, P. Maziewski, Ł. Litwic

Tytuł angielski Accidental Wow Defect Evaluation Using Sinusoidal Analysis Enhanced by Artificial Neural Networks

Tytuł polski Wyznaczanie przebiegu przypadkowych zniekształcenia kołysania przy wykorzystaniu analizy sinusoidalnej i sztucznych sieci neuronowych

Czasopismo Lecture Notes in computer Science: Rough Set and Knowledge Technology

Wolumin 4062/2006

Numer czasopisma

Strony 389 - 395

Rok 2006

Abstract A method for evaluation of parasitic frequency modulation (wow) in archival audio is presented. The proposed approach utilizes sinusoidal components tracking as their variations correspond with the wow defect. The sinusoidal modeling procedures are used to extract the tonal components from severely distorted and significantly modulated audio signals. A prediction module based on neural networks is proposed to improve the tonal components tracking.

Streszczenie Artykuł przedstawia metodę do wyznaczania charakterystyki pasożytniczych modulacji częstotliwości (kołysanie) obecnych w archiwalnych nagraniach dźwiękowych. Prezentowane podejście wykorzystuje śledzenie zmian sinusoidalnych komponentów dźwięku które odzwierciedlają przebieg kołysania. Analiza sinusoidalna wykorzystana jest do ekstrakcji składowych tonalnych ze zniekształconych nagrań dźwiękowych. Dodatkowo, w celu zwiększenia skuteczności śledzenia, wykorzystano predykator działający na bazie sieci neuronowej.

Pozycja nr 424

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Odya

Tytuł angielski Digital Hearing Aid with Time and Spectral Transposition

Tytuł polski Cyfrowy aparat słuchowy z transpozycją czasową i widmową dźwięku

Konferencja XLII Krajowy Zjazd Polskiego Towarzystwa Otorynolaryngologów Chirurgów Głowy i Szyi

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Poznań, Polska

Data konferencji 7.6.2006- 10.6.2006

Uwagi plakat

Abstract Recent screening hearing tests, which have been carried out in Poland, showed that many people suffer from hearing loss. Worse still, typical hearing aids are not able to help some particular groups of patients, e.g. newborn infants, people working in a noisy environment, aircraft pilots or patients with cochlear implants. Taking advantage of the recent progress in Digital Signal Processor (DSP) developments, a portable and reprogrammable digital hearing aid can be easily designed. Furthermore, taking into account the-state-of-the-art in the research in the digital signal processing domain, it is possible to produce in Poland a sophisticated hearing aid in which complex algorithms of signal processing will be implemented. Owing to hybrid signal processors, it was possible to implement algorithms of spectral and time transposition. The first method is designed for persons with corner-audiograms, who may retain residual hearing in a low frequency band. The latter method may be used in case of patients with time resolution problem. The aim of this poster is to present information about the hearing aid developed, algorithms engineered and to comment preliminary experiment results.

Streszczenie Następstwem uruchomienia w Polsce, prowadzonych na szeroką skalę, badań przesiewowych słuchu jest konieczność zaoferowania pomocy osobom cierpiącym na niedosłuch poprzez leczenie i protetykę słuchu. Tymczasem, aktualnie oferowane rozwiązania aparatów słuchowych nie są w stanie sprostać niektórym specjalistycznym potrzebom aparatowania, m. in.: najmłodszych dzieci, osób pracujących w hałasie, pilotów wojskowych oraz osób korzystających z implantów ślimakowych, u których dzięki zastosowaniu odpowiedniej techniki mikrochirurgicznej, zachowane zostały resztki słuchowe, dające możliwość dodatkowego wykorzystania stymulacji akustycznej i in.. Likwidacja barier importowych w dziedzinie technologii mikroelektronicznej umożliwiła nielimitowany dostęp do tej technologii w naszym kraju, co stwarza techniczną możliwość opracowywania rodzimej konstrukcji cyfrowych aparatów słuchowych o wysokim stopniu nowoczesności i miniaturyzacji. Stan rozwoju krajowych badań naukowych z dziedziny cyfrowego przetwarzania sygnałów akustycznych jest na tyle zaawansowany, że praktycznie nie istnieją bariery, które w ograniczałyby od strony technicznej możliwości opracowywania i wdrażania rodzimych konstrukcji cyfrowych aparatów słuchowych. Dostęp do tej technologii zminiaturyzowanych procesorów cyfrowych gwarantuje realizację podstawowego zadania, jakim jest opracowanie eksperymentalnego modelu wewnątrzusznego aparatu cyfrowego wraz z systemem jego dopasowania do potrzeb pacjenta przy wykorzystaniu oprogramowania komputerowego. Przedmiotem prezentacji jest dokonane opracowanie i wstępne próby kliniczne algorytmów cyfrowego przetwarzania sygnałów fonicznych do zastosowań w specjalnych protezach słuchu, takich jak: transpozycja widmowa i transpozycja czasowa dźwięku. Pierwszy rodzaj transpozycji jest przydatny dla pacjentów zachowujących resztkową czułość słuchu w postaci audiogramu narożnego, zaś transpozycja skali czasu jest pomocna pacjentom o pogorszonej rozdzielczości czasowej słuchu.

Pozycja nr 425

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Odya, B. Kostek

Tytuł angielski New generation aids for laryngectomy patients

Tytuł polski Pomoce nowej generacji dla pacjentów po laryngektomii

Konferencja 4th Joint Meeting of the Acoustical Society of America

Numer preprintu 5aSCa26

Numer

Wolumin

Strony

Miejsce konferencji Honolulu, HI, USA

Data konferencji 28.11.2006- 2.12.2006

Uwagi wyd. Journal Acoust. Soc. Am., 120 (5), Pt. 2, Nov. 2006, 3351

Abstract The aim of this project is to help laryngectomees. There are two different approaches to solve this task. The first one focuses on the artificial larynx. Some major improvements in the construction of the device might be easily introduced. First of all, digital signal processing should result in decreasing unwanted noise. The artificial larynx engineered is equipped with digital processor and amplifier. The spectral subtraction algorithm of noise reduction is used. The second approach uses PDA to generate speech.

Streszczenie Celem prezentowanego projektu było opracowanie elektronicznych pomocy dla osób po laryngektomii. Zastosowano wiele usprawnień, które wykorzytują cyfrowy procesor sygnałowy wbudowany w urządzenie. Usprawnienia dotyczą tłumienia niepożądanych zakłoceń i eliminacji pasożytniczych akustycznych sprzężeń zwrotnych. Kolejne opracowanie obejmuje syntetyzer mowy oparty na komputerze klasy PDA. Słowa kluczowe: laryngektomia; bezgłos; protezy mowy; seynetza mowy; sztuczna krtań

Pozycja nr 426

Typ pozycji: książka

Autorzy A. Czyżewski, B. Kostek, H. Skarżyński

Tytuł angielski IT Applications for the Remote Testing of Hearing

Tytuł polski Aplikacje technologii informacyjnych w badaniu słuchu przez Internet

Wydawca Springer Verlag

Strony 225 - 247

Rok 2006

Uwagi rozdział w książce zagranicznej w Information Technology Soultions for Healthcare; K. Zielinski, M. Duplaga, D. Ingram, Eds.

Abstract Telemedicine can play an important role in diagnosing and treating hearing losses. This fact is associated, among others, with the methodology of audiometric measurements and with supporting hearing through hearing aids and cochlear implants. Current problems related to treating hearing impairments and total deafness pose a distinct challenge for science, which must provide ever more effective methods for application in diagnostics and audiology as well as otolaryngology practice. Advances in teleinformatics as well as its wide employment in recent years have opened new possibilities for conducting mass screening of hearing, tinnitus (ear noises), speech and vision. Diagnostic and recovery systems associated with the interactive medical portal Telezdrowie (www.telewalfare.com) designed by the institutions mentioned in the header of this paper serve as an example of how simple diagnostic methods employed in screening tests can be mass-deployed thanks to teleinformatics, this defining a new diagnostic of communication senses.

Streszczenie Telemedycyna odgrywa coraz wiekszą rolę w diagnostyce i leczeniu osób z ubytkami słuchu. Jest to związane m.in. ze specyfiką badań audiometrycznych. Postęp technologiczny w dziedzinie aparatów słuchowych i implantów ślimakowych wymusza nowe metody diagnozy w audiologii, jak również w praktyce otolaryngologicznej. Serwis "Telezdrowie", w którym zaimplementowano liczne testy przesiewowe jest przykładem prowadzenia diagnostyki w zakresie zmysłów komunikacji na odległość. Słowa kluczowe: telemedycyna, portal medyczny, implanty ślimakowe, aparaty słuchowe, dopasowanie protez słuchu

Pozycja nr 427

Typ pozycji: książka

Autorzy A. Czyżewski, B. Kostek, H. Skarżyński

Tytuł angielski Intelligent System for Environmental Noise Monitoring

Tytuł polski Inteligentny System Monitorowania Środowiska

Wydawca Advances in Soft Computing, Springer Verlag

Strony 397 - 410

Rok 2005

Uwagi rozdział w książce zagranicznej

Abstract The telemonitoring system, developed at the Multimedia Systems Department of the Gdansk University of Technology is discussed, aimed at environmental noise levels monitoring. Apart from the global system characteristic, a detailed system presentation was provided, consisting of descriptions of the following elements: mobile measurement unit, computer noise measuring software, USB sound interface with a measurement microphone, Internet multimedia application and a soft computing algorithm applied to the analysis of the system database content. The results of noise measurements were compared to those obtained with professional noise measuring devices. The engineered intelligent application may help in diminishing hearing diseases occurrence caused by environmental & industrial noise.

Streszczenie W rozdziale przedstawiono projekt i realizację automatycznej stacji monitorowania hałasu środowiskowego. Stanowi ona jeden z elementów tworzonego w Katedrze Systemów Multimedialnych Politechniki Gdańskiej Multimedialnego Systemu Monitorowania Hałasu. Przedstawiono ogólną budowę stacji pomiarowej oraz omówiono jej podstawową funkcjonalność. Obszerniej opisano dodatkowe możliwości stacji, do których należą: komunikacja z wykorzystaniem transmisji GPRS oraz możliwość określania pozycji geograficznej dzięki zastosowaniu odbiornika sygnału GPS. Bezprzewodowa transmisja danych, umożliwią zarówno natychmiastowe wysłanie aktualnych wyników pomiarów jak również zdalny nadzór nad działaniem stacji. Informacja o lokalizacji pomiarów hałasu może znacząco przyspieszyć i uprościć sposób tworzenia map zagrożeń hałasem na analizowanym obszarze. Przedstawiono ponadto strukturę oprogramowania zastosowanego w omawianej stacji pomiarowej. Podano również wyniki przeprowadzonych badań opracowanej stacji pomiarowej w odniesieniu do obowiązujących norm. Słowa kluczowe: monitoring środowiska, hałas, metody inteligentne, system GPS, stacje pomiarowe

Pozycja nr 428

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Implementation of animation rules in fuzzy logic

Tytuł polski Implementacja reguł animacji w logice rozmytej

Konferencja XI Międzynarodowe Sympozjum Reżyserii i Inżynierii Dźwięku i Obrazu

Numer preprintu

Numer

Wolumin

Strony 211 - 218

Miejsce konferencji Kraków, Polska

Data konferencji 23.6.2005- 25.6.2005

Abstract Computer system helping in animation creation process was designed. The system utilizes animation rules that have their origin in the cartoon animation. The rules helps to achieve an emotionally featured character motion in animation. The rules are transcribed to fuzzy logic rules, and implemented in Python programming language. Test animated sequences were generated, with utilization of the system, and subjective tests are designed, to evaluate naturalness of animations and perceived emotional features. Future research and conclusion are presented.

Streszczenie Zaprojektowano system komputerowy wspomagający tworzenie animacji. System wykorzystuje reguły animacji wywodzące się z animacji tradycyjnej. Reguły opisują sposób uzyskiwania animacji postaci nacechowanych emocjonalnie. Na potrzeby badań zostały one sformułowane w logice rozmytej i zaimplementowane w języku programowania Python. Wykorzystując system wygenerowano animacje testowe, które poddano ocenie subiektywnej, w celu określenia naturalności animacji i przekazu emocjonalnego. Przedstawiono wnioski.

Pozycja nr 429

Typ pozycji: referat konferencyjny

Autorzy M. Dziubiński, B. Kostek

Tytuł angielski Automatic Evaluation of Sound Separation Quality

Tytuł polski Automatyczna walidacja jakości algorytmów separacji dźwieków instrumentów muzycznych

Konferencja 119 Audio Eng. Soc. Convention

Numer preprintu 6625

Numer

Wolumin

Strony 1 - 13

Miejsce konferencji New York, USA

Data konferencji 7.10.2005- 10.10.2005

Abstract This paper addresses the problem of evaluating effectiveness of musical sound separation algorithms. A standardized procedure for evaluating separation quality does not exist. The most convincing and typical way to do this is by carrying out subjective listening tests. However, subjective tests need a solid statistical validation, which means that many experts should take part in such tests, the room characteristics should be adequate, and what is also important, such tests are time consuming. Thus this paper attempts to show that it is possible to carry out the evaluation tests in an automatic way, by employing an Artificial Network System (ANN), which is further justified by experts’ opinion.

Streszczenie W publikacji tej opisano problem oceny efektywności algorytmów separacji dźwięków muzycznych. Standardowa procedure służąca do takiej oceny nie istnieje. Najbardziej uzasadnionym podejściem wydają się być odsłuchowe testy subiektywne. Niemniej, aby taka ocena była wartościowa, niezbędna jest porządna walidacja statystyczna wyników, co oznacza iż grupa ekspertów powinna być duża oraz właściwości akustyczne pomieszczenia. Ponadto właściwości akustyczne pomieszczenia w którym przeprowadzane są testy powinny spełniać odpowiednie normy i warto również wziąć pod uwagę iż taki eksperyment jest bardzo czasochłonny. W tej publikacji zaprezentowano automatyczną metodę oceny efektywności algorytmów separacji przy pomocy sztucznej sieci neuronowej, oraz uzyskane wyniki tej ewaluacji poddano porównaniu do wyników testów odsłuchowych.

Pozycja nr 430

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Modeling of Perceptual Masking and its Applications to Hearing Aids

Tytuł polski Modelowanie maskowania perceptualnego i jego zastosowania w protetyce słuchu

Konferencja XVII Krajowe Sympozjum Audiologiczne

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Cetniewo, PL

Data konferencji 29.9.2005- 1.10.2005

Streszczenie Modelowanie zjawisk perceptualnych obejmuje badanie zależności między odchyleniem błony podstawnej narządu Cortiego a amplitudą i częstotliwością bodźca akustycznego. Zjawiska te dotyczą makromechaniki ślimaka widzianej jako proces przyporządkowania grupom częstotliwości sygnału akustycznego różnych miejsc na błonie podstawnej, w których zachodzi jej maksymalne odchylenie. Pasma filtrów słuchowych nazwano pasmami krytycznymi słuchu. Parametry filtrów zwanych filtrami słuchowymi można wyznaczyć w oparciu o różne badania psychoakustyczne. W celu dokładniejszego określenia parametrów filtrów słuchowych, a zwłaszcza ich kształtu, można posłużyć się modelem zjawiska maskowania. Zjawisko maskowania występuje w przypadku jednoczesnego istnienia dźwięku w obecności innego dźwięku lub szumu, przy założeniu, że dźwięk zagłuszany i zagłuszający leżą w pobliskich pasmach krytycznych. Wskutek pobudzania przez dźwięk nie tylko odpowiadającego mu odcinka błony podstawnej, lecz również obszaru obejmującego częstotliwości większe, inny dźwięk pobudzający ten obszar staje się słabiej słyszalny, a nawet może przestać być słyszalny. Aby dźwięk maskowany stał się ponownie słyszalny, należy zwiększyć jego natężenie. W ten sposób jego dolna granica słyszalności została przesunięta i wartość tego przesunięcia określa miarę zagłuszania. Stwierdzono także, że: zagłuszanie jest największe w sąsiedztwie tonu zagłuszającego, zmniejszenie zagłuszania przy częstotliwościach odpowiadających harmonicznym tonu zagłuszającego związane jest z istnieniem tonów subiektywnych, tony o dużych natężeniach zagłuszają wszystkie dźwięki o częstotliwościach większych, natomiast dźwięki o częstotliwościach mniejszych - tylko w bezpośrednim swoim sąsiedztwie, łatwiej są maskowane tony wyższe przez silny ton niski. Wykorzystując powyższe założenia, dokonano implementacji modelu słyszenia w postaci algorytmicznej. Następnie model ten, zaimplementowany w formie oprogramowania wykorzystano w torze eksperymentalnej protezy słuchu, uzyskując znaczącą poprawę separacji użytecznych składowych dźwięku od niepożądanych szumów i zakłóceń.

Pozycja nr 431

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł polski Metody wyszukiwania informacji w bazach multimedialnych

Czasopismo Przegląd Telekomunikacyjny

Wolumin LXXVIII

Numer czasopisma 8-9

Strony 301 - 306

Rok 2005

Abstract The aim of this article is to review problems related to data retrieval from multimedia databases. This review is based on the results obtained within the research project entitled “New methods of multimedia information retrieval in telecommunication networks”. Among main goals of the research carried out was the implementation of soft computing methods to multimedia object acquisition and classification with the main stress on audio signals (sounds, singing, music, musical phrases). Another project's task concerned the description of the content of multimedia objects in the form of metadata for their retrieval from repositories accessible by telecommunications networks. Solving the problems within the project framework required employing the decision systems. Accordingly, for this purpose such algorithms as neural networks, genetic, rough-set- and fuzzy-set-based were designed and implemented. The results obtained show that computational intelligence and soft computing may be used effectively for solving problems connected with multimedia content retrieval.

Streszczenie W artykule przedstawiono przegląd zagadnień związanych z wyszukiwaniem informacji zawartych w bazach multimedialnych. Przegląd ten został oparty o zrealizowany projekt badawczy pt.: „Nowe metody wyszukiwania informacji multimedialnej w sieciach telekomunikacyjnych”. Eksperymenty badawcze prowadzone w ramach projektu obejmowały wdrożenie wybranych metod sztucznej inteligencji do celów akwizycji i rozpoznawania obiektów muzycznych, m.in. sygnałów fonicznych (dźwięk, śpiew, muzyka) oraz fraz muzycznych a także zastosowanie metodyki rozmytego przetwarzania języka naturalnego do przetwarzania danych muzycznych. Postawione problemy były rozwiązywane za pomocą algorytmów sieci neuronowych, metody zbiorów przybliżonych, logiki rozmytej oraz algorytmów genetycznych. Wyniki badań uzyskanych w okresie realizacji projektu potwierdziły możliwość wykorzystania algorytmów z dziedziny sztucznej inteligencji (ang. computational intelligence, soft computing) do rozwiązywania problemów z dziedziny szeroko rozumianych multimediów.

Pozycja nr 432

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, J. Wójcik

Tytuł angielski Machine Learning System for Estimating the Rhythmic Salience of Sounds

Tytuł polski System uczący do estymacji zależności rytmicznych w muzyce

Czasopismo International J. of Knowledge-based and Intelligent Engineering Systems

Wolumin 9

Numer czasopisma

Strony 1 - 10

Rok 2005

Abstract This article describes experimental work carried out in attempt to improve the effectiveness of musical rhythm retrieval systems. The authors define basic notions in the area of hierarchical rhythm retrieval and describe a procedure for inducing rhythmic hypotheses in a given melody. Utilizing an approach commonly used in the data mining domain, an association rule model has been applied to estimate the rhythmic salience of sounds based on the physical attributes of duration, frequency and amplitude. On the basis of the knowledge obtained by the machine learning system, the authors propose five functions to rank sounds according to their tendency to be located in accented positions in a melody. Adapted precision and recall measures were used to validate the proposed functions and conduct experimental verification. Conclusions derived from the results of the experiments have also been presented.

Streszczenie W artykule przedstawiono badania dotyczące wyszukiwania danych rytmicznych w muzyce. W pracy przedstawiono postać funkcji rankingujacej poszczególnych dźwięków frazy muzycznej. Opracowano metodę tworzenia wszystkich możliwych hierarchicznych struktur rytmicznych, zwanych hipotezami rytmicznymi. Otrzymane hipotezy są następnie porządkowane w kolejności malejącej wartości funkcji rankingującej, aby ustalić, która ze znalezionych hipotez będzie uznana za właściwą strukturę rytmiczną utworu muzycznego. Postać funkcji rankingującej będzie znaleziona dzięki szacowaniu wpływu własności fizycznych dźwięków tworzących utwór na ich wagi rytmiczne. W tym celu autorzy proponują zastosowanie systemów uczących się, w tym opartych o reguły asocjacyjne z dziedziny data mining. Słowa kluczowe: WYSZUKIWANIE INFORMACJI DATA MINING UKD:Informatyka i technika komputerowa

Pozycja nr 433

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Intelligent Multimedia Applications – Scanning the Issue

Tytuł polski Inteligentne przetwarzanie multimediów.

Czasopismo Journ. of Intelligent Information Systems

Wolumin 24

Numer czasopisma 2

Strony 95 - 97

Rok 2005

Uwagi Special Issue on Intelligent Multimedia Applications

Abstract The aim of this special issue, entitled "Intelligent Multimedia Applications", is to highlight ideas and applications of various intelligent computational methods that could be useful for both content processing and retrieval as well as web mining. Multimedia is an interdisciplinary and rapidly expanding domain. It covers many aspects, including audio/video/multi-modal and content description, processing and retrieval, networking technologies and applications. Multimedia may also be analyzed from different perspectives, from theory through to practice. It is difficult, however, to judge which of these research areas has had the greatest impact on technology.

Streszczenie Celem specjalnego wydania tego tomu czasopisma JIIS, zatytułowanego "Inteligentne przetwarzanie multimediów", było przedstawienie badań w tej dziedzinie, prowadzonych w różnych ośrodkach na świecie. Zawarte w tym tomie artykuły dotyczyły inteligentnego przetwarzania sygnałów fonicznych i wideo, jak również muzyki.

Pozycja nr 434

Typ pozycji: książka

Autorzy B. Kostek

Tytuł angielski Perception-Based Data Processing in Acoustics. Applications to Music Information Retrieval and Psychophysiology of Hearing

Tytuł polski Przetwarzanie danych w akustyce uwarunkowane percepcyjnie.

Wydawca Springer Verlag, Series on Cognitive Technologies, Berlin, Heidelberg, New York

Strony

Rok 2005

Abstract The objective of the monograph is to provide novel insights into cognitive mechanisms underlying processing of sound and music in different envi-ronments. A solid understanding of these mechanisms is vital for numer-ous technological applications such as for example information retrieval from distributed musical databases or building expert systems. In order to investigate the cognitive mechanisms underlying music perception funda-mentals of hearing psychophysiology and principles of music perception are presented. In addition, some computational intelligence methods are reviewed, such as rough sets, fuzzy logic, artificial neural networks, deci-sion trees and genetic algorithms. The applications of hybrid decision sys-tems to problem solving in music and acoustics are exemplified in this book and discussed on the basis of obtained experimental results.

Streszczenie Tematyka książki obejmuje w pierwszej kolejności opis mechanizmów kognitywnych leżących u podstaw percepcji muzyki. Przedstawione zostały również zagadnienia automatycznego rozpoznawania dźwięków instrumentów muzycznych i muzyki, zastosowanie nowych metod z dziedziny sztucznej inteligencji w szeroko rozumianej inżynierii dźwięku oraz komputerowych metod badania słuchu.

Pozycja nr 435

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Dalka, A. Czyżewski

Tytuł angielski Audiovisual speech recognition for training hearing impaired patients

Tytuł polski Audiowizualne rozpoznawanie mowy na potrzeby treningu osób z wadami słuchu

Konferencja 7th International Workshop on Mathematical Methods in Scattering Theory and Biomedical Engineering

Numer preprintu

Numer

Wolumin

Strony 335 - 347

Miejsce konferencji Nymphaio, Grecja

Data konferencji 8.9.2005- 11.9.2005

Abstract This study presents isolated phoneme recognition system combining both visual and acoustical data. The Active Shape Model method is used for extracting visual speech features from the shape and movement of the lips. This method consists in a model-based approach for extracting speech information from image sequences. Its advantage over the image-based approach stems from the fact that important features are represented in a low-dimensional space and are normally invariant to translation, rotation, scaling and illumination. The Mel Frequency Cepstral Coefficients (MFCCs) are used as the acoustic speech features in the speech recognition system. MFCCs are based on the short-term spectrum. The power spectrum bins are grouped and smoothed according to the perceptually motivated Mel frequency scaling. Then the spectrum is segmented into critical bands. Finally, a discrete cosine transform is applied to the logarithm of the filter bank output signal resulting in vectors of decorrelated MFCCs features. A three-layer feed-forward artificial neural network (ANN) is used in the experiments related to speech recognition. Feature vectors extracted combine both modalities of the human speech. A matrix, containing feature vectors calculated during the utterance, forms an input to the ANN. To make the results of speech classification robust against the changes in the utterance duration, an interpolation is used to compute feature vectors. Additional experiments with the degraded acoustical information are carried out in order to test the system robustness against various distortions affecting the signals. The system engineered utilizing only the visual information correctly classifies properly nearly 80% of the speech utterances. This result is very satisfying taking into account a huge similarity between lip movements during articulation of vowels and a great diversity of lip shapes originating from the anatomical features and the way of speaking. Results of classification based on the acoustical information are much better than the ones based on the visual information. However, utilizing both modalities in the speech recognition system further improves the effectiveness. Moreover this makes the system much more robust against distortions in the audio signal. A software is prepared employing above mentioned algorithms to be used by cochlear implanted patients in the process of speech training. An interactive application was conceived making possible organizing the interactive speech training sessions without any assistance from speech therapists.

Streszczenie Praca przedstawia system rozpoznawania izolowanych głosek mowy wykorzystujący dane wizualne i akustyczne. Modele Active Shape Models zostały wykorzystane do wyznaczania parametrów wizualnych na podstawie analizy kształtu i ruchu ust w nagraniach wideo. Parametry akustyczne bazują na współczynnikach melcepstralnych. Sieć neuronowa została użyta do rozpoznawania wymawianych głosek na podstawie wektora cech zawierającego oba typy parametrów. Dodatkowo zbadano odporność systemu na zakłócenia w sygnale dźwiękowym.

Pozycja nr 436

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Dalka, B. Kostek

Tytuł angielski Speech Recognition System Based on Visual Features

Tytuł polski System rozpoznawania mowy wykorzystujący cechy wizualne

Czasopismo Audiofonologia

Wolumin 27

Numer czasopisma

Strony 19 - 23

Rok 2005

Uwagi praca wydana w 2006 r.

Abstract This article describes a speech recognition system based on the lip movement analysis, designed for hearing impaired. The algorithm for locating and tracing lip movements in video recordings is presented and evaluated. Visual speech features are extracted and fed to the Artificial Neural Networks the task of which is to classify six Polish vowels. Additional experiments were carried out based both on visual and acoustical features. The results of the performed experiments and conclusions are included in the paper. The application of such a system to hearing impaired people is also outlined.

Streszczenie Niniejszy artykuł przedstawia metodę rozpoznawania głosek na podstawie analizy ruchu ust, która może znaleźć zastosowanie w terapii logopedycznej osób z wadami słuchu. W pracy opisano algorytm wyznaczana i śledzenia położenia ust oraz zbadano efektywność jego działania. Sztuczna sieć neuronowa została wykorzystana jako klasyfikator rozpoznający sześć wypowiadanych samogłosek w oparciu o wizualne parametry mowy. Dodatkowo przeprowadzono badania dotyczące rozpoznawania mowy w oparciu o parametry wizualne i akustyczne łącznie. W pracy umieszczono wyniki eksperymentów oraz pokrótce przedstawiono założenia aplikacji komputerowej wspomagającej osoby niedosłyszące.

Pozycja nr 437

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek

Tytuł angielski VIRTUAL HEARING AID – MULTIMEDIA TOOL FOR DEMONSTRATING HEARING AID BENEFITS

Tytuł polski Wirtualny aparat słuchowy jako multimedialne narzędzie do demonstracji korzyści z uzywania paratu słuchowego

Konferencja Prezentacja plakatowa na VIII Międzynarodowej Konferencji "Postępy w diagnostyce i leczeniu zaburzeń słuchu

Numer preprintu

Numer

Wolumin

Strony 55

Miejsce konferencji Kajetany, Polska

Data konferencji 19.5.2005- 21.5.2005

Uwagi Abstrakt: Audiofonologia, 2005 - Suplement

Abstract Most hearing impaired people are not aware about all possibilities of hearing impairment compensation. The multimedia technology allows to develop a smart software which can be helpful during the hearing aid fitting process. The aim of the presented experiments was to design a multimedia computer system capable to perform following functions: - measuring of impaired hearing dynamic characteristic; - calculating of approximate hearing impairment characteristics; - obtaining dynamic characteristic of a desired hearing aid; - simulating approximate hearing aid performance. The LGOB loudness scaling test results provide a basis for the calculation of the hearing dynamic characteristic and the desired hearing aid dynamic characteristic. A new method for the calculation of these characteristics is based on the fuzzy logic application. The main part of the developed system is the virtual hearing aid unit. Several DSP functions like passband filtering, linear and non-linear amplification are utilized to that purpose. The virtual hearing aid allows one to make an approximate simulation of both hearing impairment consequences and hearing aid counteraction. The system includes also a large database of speech signal patterns. Basing on the virtual hearing aid and the speech signal testing results the system can demonstrate benefits of hearing aid application in patients. The obtained hearing aid characteristic can be employed in subsequent hearing aid fitting process. The details of the elaborated system will be presented in the paper.

Streszczenie Większość osób niedosłyszących nie jest świadoma wszystkich możliwości korekcji ubytku słuchu. Wykorzystując techniki multimedialne można stworzyć oprogramowanie, które znacznie ułatwi i przybliży proces dopasowania aparatów słuchowych. Celem przeprowadzonych eksperymentów było opracowanie multimedialnego systemu, który pozwala zrealizować następujące funkcje: - pomiar charakterystyki dynamiki słuchu, - wyznaczanie charakterystyki ubytku słuchu, - wyznaczanie charakterystyki dynamiki poszukiwanego aparatu słuchowego, - przybliżona symulacja działania aparatu słuchowego; Obliczanie poszukiwanej charakterystyki aparatu słuchowego oparte jest na wynikach testu skalowania głośności według metody LGOB. Opracowany algorytm wyznaczania charakterystyki aparatu słuchowego bazuje na przetwarzaniu rozmytym wyników testu skalowania głośności. Zasadniczą częścią opracowanego systemu jest wirtualny aparat słuchowy. W wirtualnym aparacie słuchowym zastosowano algorytmy pasmowej filtracji, liniowego i nieliniowego wzmocnienia. Wirtualny aparat pozwala przeprowadzać przybliżoną symulację zarówno ubytku słuchu jaki i działania aparatu słuchowego. Wykorzystując obszerną bazę nagranych sygnałów mowy oraz wirtualny aparat słuchowy system pozwala demonstrować korzyści wynikające z używania aparatu słuchowego. Szczegóły opracowanego systemu zostaną zaprezentowane w niniejszym referacie.

Pozycja nr 438

Typ pozycji: referat konferencyjny

Autorzy B. KOSTEK, P. Żwan

Tytuł angielski Automatic Classification of Singing Voice Quality

Tytuł polski Automatyczna klasyfikacja głosów śpiewaczych

Konferencja 5th international conference on Intelligent Systems Design and Applications

Numer preprintu

Numer

Wolumin

Strony 237 - 242

Miejsce konferencji Wrocław, Polska

Data konferencji 8.9.2005- 10.9.2005

Uwagi IEEE Computer Science

Abstract In the paper problems related to the classification of singing voice quality are presented. For this purpose a database consisting of singers’ sample recordings is constructed and parameters are extracted from recorded voice of trained and untrained singers. The parameterization process is based on both voice source and formant analysis of a singing voice. These parameters are explained as to their physical interpretation and analyzed statistically in order to diminish their number. The statistical analysis is based on the Fisher Statistic. In such a way a feature vector of a singing voice is formed. Decision systems based on neutral networks and rough sets are utilized in the context of the voice type and voice quality classification. Results obtained in the automatic classification performed by both decision systems are compared. A possibility to classify automatically type/quality of voice is judged. The methodology proposed provides means for discerning trained and untrained singers.

Streszczenie W artykule przedstawiono zagadnienia związane z automatyczną klasyfikacją jakości i rodzajów głosów śpiewaczych. Na potrzebę takiej klasyfikacji stworzono bazę głosów śpiewaczych, w której dokonano parametryzacji nagrań samogłosech śpiewanych przez różnych wokalistów (zarówno profesjonalistów, jak i amatorów) na różnych wysokościach i z różną głośnością. W celu ograniczenia wymiaru wektora opisu zastosowano statystykę Behrensa Fishera i analizę korelacyjną. Aby określić skuteczność automatycznego rozpoznawania głosów śpiewaczych, sparametryzowane próbki dźwiękowe poddano automatycznemu rozpoznawaniu przy użyciu sieci neuronowych i zbiorów rozmytych. Artykuł kończy podsumowanie otrzymanych wyników i dyskusja.

Pozycja nr 439

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, J. Wójcik

Tytuł angielski AUTOMATIC RETRIEVAL OF MUSICAL RHYTHMIC PATTERNS

Tytuł polski Automatyczne wyszukiwanie rytmu w utworach muzycznych

Konferencja 119 Audio Engineering Society Convention

Numer preprintu 6567

Numer

Wolumin

Strony 1 - 9

Miejsce konferencji New York, USA

Data konferencji 7.10.2005- 10.10.2005

Abstract Even though the research within Music Information Retrieval domain is well-advanced, searching for music is still under development. Thanks to melody search methods applied in 'query by humming' systems, users can retrieve melodies on the basis of an audio input. However, the research on rhythm is not advanced to such an extent yet. This paper addresses automatic retrieval of rhythmic patterns based on symbolic representation of music employing repeating rhythmic and melodic patterns. In the experiments the importance of melorhythmic representation of a musical piece is verified and compared to the sound duration-based hypothesis ranking method. Since most of musical files to be found in the Internet are polyphonic the lowest or the highest sounds of the chords are also taken into consideration.

Streszczenie Obecnie stosowane technologie pozwalają na wyszukiwanie muzyki w zasobach Internetowych w oparciu o reprezentację melodyczną. W referacie przedstawiono problemy związane z wyszukiwaniem cech rytmicznych utworów muzycznych i pokazano stosowane metody umożliwiające automatyczne określanie rytmu.

Pozycja nr 440

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Dziubiński, B. Kostek

Tytuł angielski Octave Error Immune and Instantaneous Pitch Detection Algorithm

Tytuł polski Algorytm detekcji częstotliwości podstawowej dźwięków muzycznych odporny na błędy oktawowe

Czasopismo Journ. of New Music Reseach

Wolumin 34

Numer czasopisma 3

Strony 273 - 292

Rok 2005

Abstract The aim of this paper is to present an octave error optimized pitch detection algorithm, based on spectral analysis. The proposed algorithm is effective for both signals with strong harmonic content, as well as for nearly sinusoidal ones. In addition, as an extension to the presented octave error optimized algorithm, a method of estimating instantaneous pitch is described. Experiments and estimation accuracy tests in terms of octave errors were performed on a variety of musical instruments, i.e. 567 sounds played on acoustic instruments with various articulations and dynamics, with fundamental frequencies ranging from 34 Hz up to 1700 Hz were processed. Fine pitch errors tests of the instantaneous pitch estimation algorithm were performed for 4000 different synthetic signals, with frequencies ranging from 50 Hz to 4000 Hz, including clean signals, and signals contaminated with noise. Results exemplifying the main issues of both engineered algorithms are shown.

Streszczenie Celem publikacji jest prezentacja odpornego na błędy oktawowe, bazującego na analizie widmowej algorytmu detekcji częstotliwości podstawowej. Zaproponowana metoda dobrze sobie radzi z sygnałami o dużej zawartości sygnałów harmonicznych, jak i z prawie sinusoidalnymi przebiegami. Eksperymenty przeprowadzonno na 567 dzwiękach instrumentów muzycznych. Dźwięki grane były z różnymi artykulacjami, dynamiką i reprezentowałe były w całej swojej skali muzycznej. Błędy dokładnej estymacji zbadano w opraciu o sygnały syntetyczne, oraz algorytm detekcji ciągłego przebiegu estymacji podstawowej, stanowiący rozrzerzenie do algorytmu opartego o analizę widmową. W sumie przebadano 4000 różnych sygnałów syntetycznych, o częstotliwościach podstawowych pomiędzy 50 a 4000 Hz.

Pozycja nr 441

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Dalka

Tytuł angielski Combining visual and acoustic modalities to ease speech recognition by hearing impaired people

Tytuł polski Łączne wykorzystanie informacji akutycznej i wizualnej w celu ułatwienia rozumienia mowy przez osoby z wadami słuchu

Konferencja 118th AES Convention

Numer preprintu 6462

Numer

Wolumin

Strony

Miejsce konferencji Barcelona, Hiszpania

Data konferencji 28.5.2005- 31.5.2005

Abstract The aim of the research work presented is to show a system that facilitates speech training for hearing impaired people. The system engineered combines both visual and acoustic speech data acquisition and analysis modules. The Active Shape Model method is used for extracting visual speech features from the shape and movement of the lips. The acoustical feature extraction involves mel-cepstral analysis. Artificial Neural Networks are utilized as the classifier, feature vectors extracted combine both modalities of the human speech. Additional experiments with the degraded acoustical information are carried out in order to test the system robustness against various distortions affecting the signals.

Streszczenie Artykuł prezentuje system, którego celem działania jest ułatwienie procesu treningu poprawnej wymowy dla osób z poważnymi wadami słuchu. W analizie mowy wykorzystane zostały parametry akutyczne i wizualne. Do wyznaczenia parametrów wizualnych na podstawie kształtu i ruchu ust zostały wykorzystane modele Active Shape Models. Parametry akustyczne bazują na współczynnikach melcepstralnych. Do klasyfikacji wypowiadanych głosek została użyta sztuczna sieć neuronowa. Dodatkowo zbadano odpornośc systemu na zakłócenia akutyczne.

Pozycja nr 442

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Analysis and Generation of Emotionally Featured Animated Motion

Tytuł polski Analiza i generowanie animacji nacechowanych emocjonalnie

Konferencja The 10th International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing (RSFDGrC)

Numer preprintu

Numer

Wolumin 3642

Strony 333 - 341

Miejsce konferencji Regina, Kanada

Data konferencji 31.8.2005- 3.9.2005

Abstract Computer-animated sequences of emotionally featured gesticulation are prepared using keyframe animation method. This method consists in creating an animation by changing the properties of objects at key moments over a time sequence. Such a sequence is analyzed in terms of locations and spacing of the keyframes, shapes of interpolation curves, and emotional features present in them. In the paper the keyframe method serves for creating animated objects characterized by differentiating emotions. On the basis of the analysis of these computer-animated sequences several parameters are derived. Then decision tables are created containing feature vectors describing emotions related to each object at key moments. This system serves for derivation of rules related to various categories of emotions. Rules are analyzed, and significant parameters are derived. Conclusions and future experiments are also outlined.

Streszczenie Przygotowano animacje komputerowe, przedstawiające gestykulację nacechowaną emocjonalnie. Wykorzystano metodę animacji z klatkami kluczowymi. Zaproponowano zestaw parametrów opisujących ruch, które sprawdzono pod kątem przydatności w klasyfikacji treści emocjonalnych w animacji. Wykorzystano metody analizy zbiorów przybliżonych. Przedstawiono możliwość wykorzystania wyników w generowaniu animacji o pożądanych cechach emocjonalnych. Przedstawiono wnioski.

Pozycja nr 443

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł polski Metody wyszukiwania informacji w bazach multimedialnych

Konferencja Krajowe Sympozjum Telekomunikacji, KST'2005

Numer preprintu

Numer

Wolumin

Strony 242 - 247

Miejsce konferencji Bydgoszcz, PL

Data konferencji 7.9.2005- 9.9.2005

Streszczenie W referacie przedstawiono przegląd zagadnień związanych z wyszukiwaniem informacji zawartych w bazach multimedialnych. Przegląd ten został oparty o zrealizowany projekt badawczy pt.: „Nowe metody wyszukiwania informacji multimedialnej w sieciach telekomunikacyjnych”. Eksperymenty badawcze prowadzone w ramach projektu obejmowały wdrożenie wybranych metod sztucznej inteligencji do celów akwizycji i rozpoznawania obiektów muzycznych (m.in. sygnałów fonicznych (dźwięk, śpiew, muzyka), fraz muzycznych) oraz zastosowanie metody “computing with words” do przetwarzania danych muzycznych. Postawione problemy były rozwiązywane za pomocą algorytmów sieci neuronowych, metody zbiorów przybliżonych, logiki rozmytej oraz algorytmów genetycznych. Wyniki badań uzyskanych w okresie realizacji projektu potwierdziły możliwość wykorzystania algorytmów z dziedziny sztucznej inteligencji (computational intelligence, soft computing) do rozwiązywania problemów z dziedziny szeroko rozumianych multimediów.

Pozycja nr 444

Typ pozycji: referat konferencyjny

Autorzy G. Szwoch, B. Kostek

Tytuł angielski Examining Acoustical Properties of Earmolds Using their Computer Model

Tytuł polski Badanie akustycznych właściwości wkładek usznych z wykorzystaniem modelowania komputerowego

Konferencja Advances in Diagnosis and Treatment of Auditory Disorders

Numer preprintu

Numer

Wolumin

Strony 60

Miejsce konferencji Kajetany, Polska

Data konferencji 19.5.2005- 21.5.2005

Uwagi Abstrakt: Audiofonologia, 2005 - Suplement

Abstract In the process of Behind-The-Ear hearing aid fitting, the physician has to select the earmold that matches the patient’s needs. A wide range of earmolds is available, differing in size and material entailing different acoustical properties. To this date, no method for examining earmold properties was developed. Therefore, a computer model of an earmold with tubing is proposed. This model, implemented in Matlab system, is based on the waveguide method. The acoustical duct inside the earmold and tubing is represented in the model as a set of cylindrical tubes. For a set of tubes with lengths and diameters entered by the user, the system computes and plots the frequency responses. The properties of the receiver, the outer ear and venting channels inside the earmold may also be implemented in the model. The system gives the physician an ability to examine and to compare acoustical properties of different earmolds in a short time. The procedure may be also reversed: the physician may tune the model to obtain suitable frequency response and the designed earmold may be then manufactured. Consequently, the proposed system which is presented in the paper provides a valuable tool assisting the physician in the process of earmold selection.

Streszczenie Podczas dobierania aparatu zausznego BTE należy doapsować wkładkę uszną do potrzeb pacjenta. Dostępny jest szeroki zakres wkładek usznych o różnych rozmiarach i wykonanych z różnych materiałów, co powoduje róznice we właściwościach akustycznych wkładki. Nie opracowano dotąd metody badania właściwości akustycznych wkładek usznych. Zaproponowano zatem model komputerowy wkładki usznej i przewodu łączącego. Model ten, zaimplementowany w systemie Matlab, oparty jest na metodzie modelowania falowodowego. System daje możliwość zbadania właściwości akustycznych różnych konfiguracji wkładek usznych, a także zaprojektowania wkładek o pożądanych właściwościach akustycznych. Proponowany model może być zatem cennym narzędziem pomocnym w procesie dobierania aparatu słuchowego.

Pozycja nr 445

Typ pozycji: referat konferencyjny

Autorzy P. Dalka, B. Kostek

Tytuł angielski Speech recognition system providing assistance to people with hearing impairments

Tytuł polski System rozpoznawania mowy pomocny dla osób z wadami słuchu

Konferencja 3rd International Conference on Telemedicine and Multimedia Communication

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 21.10.2005- 22.10.2005

Abstract This work presents research results in the domain of speech recognition providing assistance to hearing impaired people. The system being engineered combines both visual and acoustic data to recognize speech in order to facilitate speech training of patients revealing serious hearing impairments. The Active Shape Model method is used for extracting visual speech features from the shape and movement of lips. The acoustic features extraction involves mel-cepstral analysis. Both modalities of speech are combined in the feature vectors extracted. An artificial neural network is employed as a classifier allowing recognition of speech utterances. Additional experiments with the degraded acoustic information are carried out in order to test the system robustness against various distortions affecting the signal.

Streszczenie Praca prezentuje wyniki badań w dziedzinie rozpoznania mowy dla potrzeb osób z wadami słuchu. Opracowywany system wykorzystuje łącznie dane akustyczne i wizualne. Modele Active Shape Models zostały wykorzystane do wyznaczania parametrów wizualnych na podstawie kształtu i ruchu ust w nagraniach wideo. Parametry akutyczne bazują na współczynnikach melcepstralnych. Siec neuronowa została wykorzystana jako klasyfikator służący do rozpoznawania wymawianych głosek. Dodatkowo zbadano odporność systemu na zakłócenia w sygnale dźwiękowym.

Pozycja nr 446

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Dziubiński, P. Dalka, B. Kostek

Tytuł angielski Estimation of musical sound separation algorithm effectiveness employing neural networks

Tytuł polski Ocena algorytmów separacji dźwięków instrumentów muzycznych przy wykorzystaniu sieci neuronowych

Czasopismo Journ. of Intelligent Information Systems

Wolumin 24

Numer czasopisma 2-3

Strony 133 - 157

Rok 2005

Abstract Blind separation of musical sounds contained in sound mixtures is a challenging and difficult task. It is due to the fact that in Western music, mixed harmonic sources may be correlated with each other, i.e. their harmonic partials might be overlapping in the frequency domain if the signals remain in harmonic relation. Evaluation of the separation results is also problematic, since analysis of the energy-based error between the original signals used for mixing and the separated ones, in some cases, do not correspond with perceptual evaluation results. In this paper, four separation algorithms, engineered by the Authors, are presented. Then, musical instrument sound identification based on artificial neural networks is performed as a means of evaluating the performance of the separation algorithms. Results are discussed and conclusions are derived.

Streszczenie Ślepa separacja dźwięków sygnałów muzycznych zawartych w zmiksowanym materiale jest trudnym zadaniem. Jest to spowodowane tym, że dźwięki znajdujące się w relacjach harmonicznych mogą zawierać kolidujące składowe sinusoidalne (składowe harmoniczne). Ewaluacja wyników separacji jest również problematyczna, gdyż analiza błędu energetycznego często nie odzwierciedla subiektywnej jakości odseparowanych sygnałów. W tej publikacji zostały przedstawione i omówione cztery algorytmy separacji opracowane przez autorów. Odseparowane źródła poddano automatycznej klasyfikacji przy pomocy sztucznej sieci neuronowej. Przedstawiono rezultaty eksperymentu wraz z ich omówieniem.

Pozycja nr 447

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, H. Skarżyński

Tytuł angielski Internet-Based Automatic Hearing Assessment System

Tytuł polski System badania słuchu w Internecie

Konferencja 119 Audio Engineering Society Convention

Numer preprintu 6626

Numer

Wolumin

Strony

Miejsce konferencji New York, USA

Data konferencji 7.10.2005- 10.10.2005

Abstract In the paper the Internet-based system that allows for automatic testing of hearing is described. Hearing impairment is one of the fastest growing diseases of modern society. Therefore it is very important to organize mass screening tests to identify people suffering from this kind of impairment. The described application provides a test that uses automatic questionnaire analysis, standardized audiometric tone test procedures, and assessment of speech intelligibility in noise. When all the testing is completed, the system automatically analyzes the results for each person examined. Based on the number of incorrect answers, the decision is made automatically by the expert system. Persons whose hearing impairment is confirmed are referred to treatment in rehabilitation centers. All these centers are connected via the Internet and are provided with special distributed database access allowing them to automatically register and track the patient discovered during the remote screening.

Streszczenie Celem referatu jest prezentacja systemu przesiewowego badania słuchu w oparciu o Internet. Wady słuchu stanowią jedną z najszybciej postępujących chorób we współczesnym społeczeństwie. W tym kontekście ważne staje się umożliwienie przeprowadzania masowych testów wykrywających ubytki słuchu. Przedstawiona aplikacja zawiera audiometryczny test tonalny, test ilustrowany dla dzieci oraz test rozumienia mowy w szumie. Po zakończeniu testów system automatycznie analizuje wyniki dla każdej badanej osoby. Osoby z wykrytą wadą słuchu kierowane są do specjalistycznych centrów rehabilitacyjnych na dalsze badania.

Pozycja nr 448

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Fuzzy logic system dedicated to computer animations in Python programming language

Tytuł polski System logiki rozmytej wspomagający tworzenie animacji komputerowych w oparciu o język Pyth

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin 7

Numer czasopisma

Strony 455 - 462

Rok 2005

Abstract The presented system, based on fuzzy logic principles and engineered in the Python programming language, is designated as an expert system assisting computer animation of realistic character movement. System designing procedures were described concerning specific dictionary data structures enabling to create membership functions and rule composition. Creating fuzzy rules involves connecting linguistic variables with labels describing membership functions. Future development of the system was also proposed.

Streszczenie W celu tworzenia animacji komputerowych opartych o reguły wywodzące się z animacji tradycyjnej zaimplementowano system logiki rozmytej w języku Python, wykorzystujący słownikowy typ danych (tablice asocjacyjne). Zaprojektowane reguły łączą etykiety słowne, oznaczające zmienne lingwistyczne z etykietami nazw funkcji przynależności wykorzystującymi wartości lingwistyczne. W referacie przedstawiono fazy projektowania systemu, określania funkcji przynależności i tworzenia bazy reguł do zastosowania w algorytmach wspomagania animacji postaci. Opisano algorytm wnioskowania. Zaproponowano również dalszy rozwój systemu w celu wprowadzenia możliwości automatycznego strojenia danymi pomiarowymi wejścia i wyjścia i samoorganizowania.

Pozycja nr 449

Typ pozycji: artykuł w czasopiśmie

Autorzy P. Dalka, B. Kostek

Tytuł angielski Image analysis in speech recognition

Tytuł polski Wykorzystanie analizy obrazu w rozpoznawaniu mowy

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin

Numer czasopisma 6

Strony 199 - 206

Rok 2005

Abstract Niniejszy referat przedstawia metodę rozpoznawania mowy na podstawie analizy ruchu ust. W pracy opisano algorytm wyznaczana i śledzenia położenia ust wykorzystujący modele Active Shape Models oraz zbadano efektywność jego działania. Sztuczna sieć neuronowa została wykorzystana jako klasyfikator rozpoznający sześć wypowiadanych samogłosek w oparciu o wizualne parametry mowy. W pracy umieszczono wyniki klasyfikacji oraz wnioski.

Streszczenie This paper describes the speech recognition system based on the lip movement analysis. The Active Shape Model method is used for localizing and tracking lips in video recordings. Visual speech features are fed to the Artificial Neural Networks whose task is to classify six Polish vowels. The results of the lip tracking and speech recognition obtained in the performed experiments are included in the paper.

Pozycja nr 450

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Szczuko, P. Żwan, P. Dalka

Tytuł angielski Processing of Musical Data Employing Rough Sets and Artificial Neural Networks

Tytuł polski Przetwarzanie danych muzycznych z wykorzystaniem zbiorów przybliżonych i sztucznych sieci neuronowych

Czasopismo Transactions on Rough Sets

Wolumin

Numer czasopisma

Strony 112 - 133

Rok 2005

Abstract This paper presents system assumptions for automatic identification of music and musical sounds. An overview of the MPEG-7 standard, focused on audio information description, is given. The paper discusses some problems in audio information analysis related to efficient MPEG-7-based applications. The effectiveness of the implemented low-level descriptors for automatic recognition of musical instruments is presented on the basis of experiments. A discussion on the influence of the choice of descriptors on the recognition score is included. Experiments are carried out basing on a decision system employing Rough Sets and Artificial Neural Networks. In addition, an experiment on automatic identification of a musical style is included.Conclusions are also derived and contained.

Streszczenie Artykuł opisuje założenia systemu automatycznej identyfikacji muzyki i dźwięków muzycznych. Dokonano przeglądu standardu MPEG-7, ze szczególnym naciskiem na parametry opisowe dźwięku. Przedyskutowano problemy analizy danych audio, związane z zastosowaniami wykorzystującymi MPEG-7. W oparciu o eksperymenty przedstawiono efektywność deskryptorów niskiego poziomu w automatycznym rozpoznawaniu dźwięków instrumentów muzycznych. Przedyskutowano wpływ doboru parametrów opisowych na skuteczność rozpoznawania. W eksperymentach wykorzystano systemy decyzyjne działające w dziedzinie zbiorów przybliżonych oraz sztucznych sieci neuronowych. Dodatkowo wykonano eksperyment automatycznego rozpoznawania stylu muzycznego. Przytoczono wnioski.

Pozycja nr 451

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Hearing Impaired Speech Rehabilitation Application Using Animated Avatar With Non-verbal Communication

Tytuł polski Aplikacja komputerowa wspomagająca rehabilitację mowy u osób z wadami słuchu, wykorzystująca postać animowaną i komunikację niewerbalną

Konferencja 3rd International Conference on Telemedicine and Multimedia Communication

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 21.10.2005- 22.10.2005

Abstract The aim of this study is to construct a computer application that will assist speech therapists in their work with hearing impaired children. The main stress in this research is on the creation of animated characters that will serve as an enforcement of learning skills. A child task is to repeat phonemes and syllables contained in lesson units pre- prepared by speech therapist. An animated character (avatar) performs different motions according to the answers given by a child. Depending on the answer avatar's acting expresses wide range of reactions while at the same time introducing reward aspect. The animation system consists of a database with basic motion sequences. Animation is directed with scripts including list of sequences from the database, time stamps for synchronization, and statements to display. It can also be integrated with speech recognition and text-to-speech systems. In the paper assumptions of such a system are described with the emphasis on the application for hearing impaired speech rehabilitation process having an motivational aspect. Present results and future work are also given.

Streszczenie Zaprojektowano aplikację komputerową wykorzystywaną w pracy terapeuty z dziećmi z wadami słuchu. Największy nacisk położono na stworzenie animowanej postaci, której zachowanie motywowałoby dziecko do postępów w nauce. Zadaniem dziecka jest powtarzanie fonemów i sylab w ramach lekcji przygotowanej przez terapeutę. W zależności od odpowiedzi dziecka, postać na ekranie monitora wykonuje różne czynności, wprowadzając aspekt nagradzania za poprawne odpowiedzi. Aplikacja zawiera bazę danych przechowujących animacje podstawowych czynności. Animacja na ekranie odtwarzana jest na podstawie scenariusza, zawierającego listę czynności, znaczniki czasowe do synchronizacji oraz komunikaty do wyświetlania na ekranie. Aplikacja może być zintegrowana z systemami rozpoznawania i generowania mowy.

Pozycja nr 452

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, J. Wójcik, P. Holonowicz

Tytuł angielski Estimation the Rhythmic Salience of Sound with Association Rules and Neural Networks

Tytuł polski Wyszukiwanie struktury rytmicznej we frazach muzycznych w oparciu o metody reguły asocjacyjne i sztuczne sieci neuronowe

Konferencja Proc. of the Intern. IIS: IIPWM'05 Conference

Numer preprintu

Numer

Wolumin

Strony 531 - 540

Miejsce konferencji Gdańsk, PL

Data konferencji 13.6.2005- 16.6.2005

Uwagi Intelligent Information Processing and Web Mining, Advances in Soft Computing, Springer Verlag

Abstract In this paper experiments done towards improving the performance of systems retrieving musical rhythm are described. Authors briefly review machine learning models used to estimate tendency of sounds to be located in accented positions. This is done on the basis of their physical attributes such as duration, frequency and amplitude. For this purpose Data Mining association rule model and neural networks with discrete output – LVQ networks are used. By means of evaluation method introduced by the authors it is possible to compare the results returned by both models. This work aims at retrieving multi-level rhythmic structure of a musical piece on the basis of its melody, which may result in systems creating automatic drum accompaniment for a given melody or retrieval systems for automatic music identification.

Streszczenie W referacie przedstawiono eksperymenty majace na celu automatyczne wyszukiwanie wartości rytmicznych we frazie muzycznej. W tym celu wykorzystano metody data mining i sztuczne sieci neuronowe.

Pozycja nr 453

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski A System for Fast & Precise Hearing Aids Fitting

Tytuł polski Komputerowy system szybkiego i dokładnego dopasowania protez słuchu

Konferencja Prezentacja plakatowa na II Międzynarodowej Konferecji Telemedycyny i TeleKomunikacji Multimedialnej

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 8.10.2004- 9.10.2004

Abstract Most prosthetics practitioners determine the preliminary characteristics of the hearing aid using simple calculation procedures. Experience shows that similar methods allow assessing the characteristics of the searched hearing aid in a relatively straightforward and intuitive way, but they do not guarantee finding optimum settings of the compression algorithms. Moreover, it requires some additional tuning of the determined characteristics using other methods of adjusting hearing aids. The difficulty in determining hearing characteristics on the basis of known LGOB test results lies primarily in converting the subjective scale of loudness sensation into the objective scale of sound level expressed in dB. The widely used method of determining hearing characteristics (the standard method) implicitly projects the subjective scale of categories onto the space of real numbers from the closed range from 0 to 6, and subsequently calculates the difference between the results of loudness scaling for regular hearing and those for the tested case. This problem was solved alternatively by the authors using a method that converts the results of the loudness-scaling test to the category domain in a natural way, i.e. determines the difference between regular and impaired loudness scaling in a way similar to that of a human expert, using a set of categories like e.g. very small difference, small difference, medium difference, big difference and very big difference. Subsequently, a proper interpretation of these categories is required to determine the correct sound level in the dB SPL scale. These requirements are met by the engineered and implemented method employing fuzzy logic-based processing. The poster will demonstrate the method of fast and accurate hearing aids fitting and the developed computer program making possible to use this method by audiologists.

Streszczenie Większość protetyków słuchu wyznacza wstępną charakterystykę aparatu słuchowego na podstawie prostych obliczeń, których zasadniczym parametrem jest zmierzony próg słyszenia pacjenta.. Doświadczenie pokazuje, że takie metody pozwalają w stosunkowo krótkim czasie wyznaczyć charakterystykę poszukiwanej protezy słuchu, jednak nie gwarantują one optymalnego ustawienia algorytmu kompresji dynamiki.. Ponadto metody te wymagają dodatkowych procedur optymalizujących ustawienie protezy słuchu. Trudność wyznaczenia charakterystyki protezy słuchu w oparciu o wyniki znanego testu LGOB polega na konieczności konwersji subiektywnej skali oceny wrażenia głośności do postaci obiektywnej skali poziomu dźwięku, wyrażonej w dB. Standardowa metoda wyznaczania charakterystyki protezy słuchu konwertuje skalę kategorii oceny wrażenia głośności do postaci liczb rzeczywistych z przedziału od 0 do 6, a następnie oblicza różnicę między uśrednionymi wynikami skalowania głośności dla słuchu prawidłowego i wynikami skalowania głośności danego pacjenta.. Alternatywnym, zaproponowanym przez autorów, sposobem wyznaczenia charakterystyki dynamiki uszkodzonego słuchu jest wykorzystanie logiki rozmytej do określenia różnicy w skalowaniu głośności danego pacjenta i osób o słuchu prawidłowym. Różnice te również wyrażone są w skali kategorii np. brak, bardzo mała, mała, średnia, duża, bardzo duża. Następnie za pomocą przetwarzania rozmytego następuje interpretacja otrzymanych różnic, a w konsekwencji wyznaczenie charakterystyki dynamiki uszkodzoengo słuchu wyrażonej w skali dB SPL. Ten plakat ilustruje opracowaną metodę szybkiego I precyzyjnego dopasowania protez słuchu oraz prezentuje oprogramowanie, które jest implementacją przedstawionej metody.

Pozycja nr 454

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, P. Maziewski, M. Dziubińki, A. Kaczmarek, B. Kostek

Tytuł angielski Wow detection and compensation employing spectral processing of audio

Tytuł polski Detekcja i kompensacja zniekształceń drżenia dźwięku

Konferencja 117 Konferencja AES

Numer preprintu 6212

Numer 1/2

Wolumin 53

Strony 91

Miejsce konferencji San Francisco, CA, USA

Data konferencji 28.10.2004- 31.10.2004

Uwagi abstrakt dostępy w JAES

Abstract The engineered algorithms are presented for the detection of parasitic frequency modulation in audio originating from irregularities of sound carrier velocity. The algorithms were developed with special regard to non-periodic frequency modulation effects found in old movie sound tracks. The proposed algorithms consider the influence of the wow disturbance on the location of formants in time-frequency representation. The dynamic analysis of formant structures behavior underlies discriminating between parasitic frequency changes and natural frequency fluctuations. The compensation of the detected wow-related frequency modulation is accomplished basing on the non-uniform resampling algorithm, driven by the discerned parasite modulation patterns. The details of the proposed wow detection and compensation techniques are presented and achieved results are discussed.

Streszczenie Praca zawiera opis opracowanych algorytmów detekcji i kompensacji pasożytniczych modulacji częstotliwości wynikających z nierównomiernego przesuwu nośnika dźwięku. Proponowane metody opracowano ze szczególnym uwzględnieniem przypadkowych zniekształceń drżenia obecnych w archiwalnych filmowych ścieżkach dźwiękowych. Dodatkowo algorytmy badają wpływ zniekształceń na strukturę formantową sygnałów. Analiza zmian położenia formantów umożliwia rozróżnienie naturalnych i pasożytniczych wahań częstotliwości. Kompensacja zniekształceń następuje dzięki metodzie nierównomiernego próbkowania sygnału. W kolejnych paragrafach pracy przedstawiono szczegółowy opis poszczególnych metod oraz uzyskane wyniki.

Pozycja nr 455

Typ pozycji: książka

Autorzy B. Kostek, J. Wójcik

Tytuł angielski Forming and Ranking Musical Rhythm Hypotheses

Tytuł polski Towrzenie hipotez rytmicznych w utworach muzycznych w oparciu o funkcję rankingujacą

Wydawca LNAI 3213, Springer Verlag, Berlin, Heidelberg

Strony 750 - 756

Rok 2004

Abstract The task of music rhythm retrieval systems is to find the evenly spaced accented sounds of music. One of the basic theories in music cognition area states that values of physical attributes such as duration, pitch and amplitude determine whether the sound is located in a strong rhythmic position or in a weak one. This paper presents a study on the influence of physical attributes on rhythmic features. The authors have defined basic notions in the music rhythm retrieval domain and have proposed data mining association rules as a model to solve the problem of beat tracking. Discussion on experimental results is included, and future directions of research in this area are also described.

Streszczenie W pracy przedstawiono podstawowe pojęcia i definicje zwiazne z wyszukiwaniem informacji rytmicznej w utworach muzycznych. W muzykologii przyjmuje się, że atrybuty dźwięku, takie jak długość, częstotliwość oraz amplituda dźwięku determinują wagę rytmiczną dźwięku. W artykule przebadano te właściwości fizyczne dźwięku w kontekście okreslenia wagi rytmicznej, czyli miary określającej tendencję dźwięku do znalezienia się na początku wzorca. Słowa kluczowe: wyszukiwanie informacji muzycznej w oparciu zawartość melodyczną i rytmiczną, metody sztucznej inteligencji WYSZUKIWANIE INFORMACJI DATA MINING UKD:Informatyka i technika komputerowa

Pozycja nr 456

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Music Archive Metadata Processing Based on Flow Graphs

Tytuł polski Przetwarzanie meta opisu plików muzycznych z zastosowaniem grafów przepływowych

Konferencja 116th Audio Engineerig Society

Numer preprintu 6138

Numer

Wolumin

Strony 1 - 7

Miejsce konferencji Berlin, Niemcy

Data konferencji 8.5.2004- 11.5.2004

Abstract The paper addresses the capabilities that should be expected from intelligent Web search tools in order to respond properly to user's music information retrieval needs. An advanced query algorithm was engineered employing a concept of inference rule derivation from flow graphs with regard to semantic data processing. This concept, introduced recently by Pawlak, is used for mining knowledge in databases. The created database searching engine utilizes knowledge acquired in advance and stored in flow graphs in order to enable searching in musical repositories. Results obtained show that employing the implemented method the resulting search matches are ranked optimally, thus metada related to recorded sound can be retrieved efficiently with the use of this algorithm.

Streszczenie W referacie zaproponowano metodykę wyszukiwania informacji muzycznej w bazach internetowych w oparciu o meta opis. Skonstruowany algorytm wykorzystuje grafy przepływowe Pawlaka. Słowa kluczowe: wyszukiwanie informacji, grafy przepływowe

Pozycja nr 457

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Grzymala-Busse, B. Kostek, R. Swiniarski, M. Szczuka

Tytuł angielski Preface

Tytuł polski Wprowadzenie edytorskie do I tomu Transactions on Rough Sets

Czasopismo Transactions on Rough Sets I

Wolumin LNCS 3100

Numer czasopisma I

Strony

Rok 2004

Abstract This journal, a new subline in the Springer-Verlag series Lecture Notes in Computer Science, is devoted to the entire spectrum of rough set related issues, starting from logical and mathematical foundations of rough sets, through all aspects of rough set theory and its applications, to relations between rough sets and other approaches to uncertainty, vagueness, and incompleteness, such as fuzzy sets, theory of evidence, knowledge discovery, data mining and intelligent information processing, etc.

Streszczenie Przedstawiono nową serię czasopisma Transactions on Rough Sets. Przedstawiono nową serię czasopisma Transactions on Rough Sets i zakres publikowanej tematyki. Omówiono poszczególne tematyki i artykuły przygotowane w ramach pierwszego tomu tego czasopisma. Słowa kluczowe: zbiory przybliżone, inteligentne przetwarzanie wiedzy, logika rozmyta

Pozycja nr 458

Typ pozycji: książka

Autorzy J. Wójcik, B. Kostek

Tytuł angielski Intelligent Methods for Musical Rhythm Retrieval

Tytuł polski Inteligentne metody wyszukiwania informacji rytmicznej

Wydawca Advanced Knowledge International, Adelaide, Australia, International Series on Advanced intelligence

Strony 187 - 201

Rok 2004

Abstract This work focuses on the problem of estimating salience of sounds, which create a musical piece. We define notions necessary to describe our approach to forming and ranking rhythmical hypotheses. Artficial intelligence models and techniques such as data mining asscoiation rules, neural networks and genetic algorithms are discussed to solve the problem of musical salience of sounds. We propose also a validation method to compare usability of proposed approaches to rank rhythmic hypotheses. The final action of the ranking hypothesis is to retrieve the hierachical structure of a musical piece rhythm.

Streszczenie W pracy przedstawiono postać funkcji rankingujacej poszczególnych dźwięków frazy muzycznej. Opracowano metodę tworzenia wszystkich możliwych hierarchicznych struktur rytmicznych, zwanych hipotezami rytmicznymi. Otrzymane hipotezy są następnie porządkowane w kolejności malejącej wartości funkcji rankingującej, aby ustalić, która ze znalezionych hipotez będzie uznana za właściwą strukturę rytmiczną utworu muzycznego. Postać funkcji rankingującej będzie znaleziona dzięki szacowaniu wpływu własności fizycznych dźwięków tworzących utwór na ich wagi rytmiczne. W tym celu autorzy proponują zastosowanie systemów uczących się, w tym opartych o reguły asocjacyjne z dziedziny data mining oraz o metodę sieci neuronowych. Słowa kluczowe: WYSZUKIWANIE INFORMACJI DATA MINING UKD:Informatyka i technika komputerowa

Pozycja nr 459

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Musical Data Musical Instrument Classification and Duet Analysis Employing Music Information Retrieval Techniques

Tytuł polski Klasyfikacja instrumentów muzycznych w oparciu o techniki wyszukiwania informacji muzycznej

Czasopismo Proceedings of the IEEE

Wolumin 92

Numer czasopisma 4

Strony 712 - 729

Rok 2004

Abstract The aim of this paper is presenting solutions related to identifying musical data. These are discussed mainly on the basis of experiments carried out at the Multimedia Systems Department of the Gdansk University of Technology. The topics presented in this paper include automatic recognition of musical instruments and separation of duet sounds. Classification process is shown as three-layer process consisted in pitch extraction, parametrization and pattern recognition. These three stages are discussed on the basis of experimental examples. Artificial Neural Networks (ANNs) are employed as a decision system and they are trained with a set of feature vectors (FVs) extracted from musical sounds recorded at the Multimedia Systems Department. The Frequency Envelope Distribution (FED) algorithm is presented, which was introduced to musical duet separation. For the purpose of checking the efficiency of the FED algorithm ANNs are also used. They are tested on FVs derived from musical sounds after the separation process is performed. The experimental results are shown and discussed.

Streszczenie Artykuł przedstawia w sposób przeglądowy prace Katedry Systemów Multimedialnych Politechniki Gdańskiej związane z wyszukiwaniem informacji muzycznej, a w szczególności z klasyfikacją dźwięków instrumentów muzycznych. W opisywanych eksperymentach wykorzystano sztuczne sieci neuronowe. Słowa kluczowe: wyszukiwanie informacji muzycznej, klasyfikacja instrumentów muzycznych, separacja instrumentów muzycznych

Pozycja nr 460

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Processing of Musical Metadata Employing Pawlak’s Flow Graphs

Tytuł polski Przetwarzanie meta danych w oparciu o metodę grafów przepływowych

Czasopismo Transactions on Rough Sets I

Wolumin LNCS 3100

Numer czasopisma I

Strony 279 - 298

Rok 2004

Abstract The objective of the presented research is enabling music retrieval based on intelligent analysis of metadata contained in musical databases. A database was constructed for the purpose of this study including textual data related to approximately 500 compact discs representing various categories of music. The description format of musical recordings stored in the database is compatible to the format of the widely-used CDDB database available in the Internet. An advanced query algorithm was prepared employing the concept of inference rule derivation from flow graphs introduced recently by Pawlak. The created database searching engine utilizes knowledge acquired in advance and stored in flow graphs in order to enable searching CD records.

Streszczenie W artykule przedstawiono problemy wyszukiwania informacji muzycznej. W eksperymentach posłużono się meta opisem oraz wykorzystano metodę grafów przepływowych Pawlaka. Opisano skonstruowaną bazę nagrań muzycznych. Słowa kluczowe: meta opis, wyszukiwanie informacji muzycznej, baza danych muzycznych

Pozycja nr 461

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, M. Szczerba, B. Kostek

Tytuł angielski Musical Phrase Representation and Recognition by Means of Neural Networks and Rough Sets

Tytuł polski Rozpoznawanie fraz muzycznych w oparciu o sztuczne sieci neuronowe i metodę zbiorów przybliżonych

Czasopismo Transactions on Rough Sets I

Wolumin LNCS 3100

Numer czasopisma I

Strony 254 - 278

Rok 2004

Abstract This paper discusses various musical phrase representations. Musical phrase analysis plays an important role in music information retrieval domain. In the paper various representations of a musical phrase are described and analyzed. Also the experiments were designed to facilitate pitch prediction within a musical phrase by means of entropy-coding of music. We used the concept of predictive data coding introduced by Shannon. Encoded music representations, stored in the database, are then used for automatic recognition of musical phrases by means of Artificial Neural Networks (ANN) and rough sets (RS). A discussion on obtained results is carried out and conclusions are included.

Streszczenie W artykule przedstawiono podstawowe definicje dotyczące frazy muzycznej. W eksperymentach posłużono się zapisem parametrycznym. W celu wzmocnienia procesu rozpoznawania wykorzystano kodowanie entropijne muzyki. W eksperymentach klasyfikacji oparto się o sztuczne sieci neuronowe i metodę zbiorów przybliżonych. Słowa kluczowe: fraza muzyczna, klasyfikacja, sztuczne sieci neuronowe, metoda zbiorów przybliżonych

Pozycja nr 462

Typ pozycji: referat konferencyjny

Autorzy P. Żwan, B. Kostek

Tytuł angielski Automatic Quality Testing of Singing Voices

Tytuł polski Automatyczna Klasyfikacja Jakości Głosów Śpiewaczych

Konferencja 23. Tonmeistertagung, VDT International Audio Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Lipsk, Niemcy

Data konferencji 5.11.2004- 8.11.2004

Uwagi Proc. wydane w 2005

Abstract The paper focuses on automatic classification of singing voice quality. In the paper some principles regarding the singing voice formant and glottal signal extraction methods are discussed and practical parameterization methods are shown. Moreover time-domain analysis of formant amplitudes and frequencies is presented. Basing on changes of formant parameters some glottal parameters are extracted and analyzed. Voice recordings of some professional and unprofessional singers are parametrized. Conclusions are derived and future work plans are presented.

Streszczenie Artykuł dotyczy automatycznej oceny jakości głosów śpiewaczych. W artykule omówiono praktyczne metody ekstrakcji i parametryzacji formantów głosu śpiewaczego oraz metody parametryzacji tonu krtaniowego w śpiewie. Dodatkowo przedstawiono czasową analizę zmienności formantów. Na podstawie zmian parametrów formantów dokonano próby ekstrakcji parametrów tonu krtaniowego. W części praktycznej omówiono wyniki parametryzacji nagrań głosów profesjonalnych i amatorskich. Artykuł kończą wnioski z eksperymentów i plan dalszych prac.

Pozycja nr 463

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Szczuko, P. Żwan, P. Dalka

Tytuł angielski Processing of Musical Data Employing Rough Sets and Artificial Neural Networks

Tytuł polski Przetwarzanie danych muzycznych z wykorzystaniem zbiorów przybliżonych i sztucznych sieci neuronowych

Konferencja 4th International Conf. Rough Sets and Current Trends in Computing, Lecture Notes in Atificial Intelligence, LNAI 3066, Springer Verlag, Berlin, Heidelberg, New York

Numer preprintu

Numer

Wolumin

Strony 539 - 548

Miejsce konferencji Uppsala, Szwecja

Data konferencji 2004

Abstract This paper presents system assumptions for automatic recognition of music and musical sounds. An overview of the MPEG-7 standard, focused on audio information description, is given. The paper discusses some problems in audio information analysis related to efficient MPEG-7-based applications. The effectiveness of the implemented low-level descriptors for automatic recogni-tion of musical instruments is presented on the basis of experiments. A discus-sion on the influence of the choice of descriptors on the recognition score is in-cluded. Experiments are carried out basing on a decision system employing Rough Sets and Artificial Neural Networks. Conclusions are also included.

Streszczenie Artykuł opisuje założenia systemu automatycznej identyfikacji muzyki i dźwięków muzycznych. Dokonano przeglądu standardu MPEG-7, ze szczególnym naciskiem na parametry opisowe dźwięku. Przedyskutowano problemy analizy danych audio, związane z zastosowaniami wykorzystującymi MPEG-7. W oparciu o eksperymenty przedstawiono efektywność deskryptorów niskiego poziomu w automatycznym rozpoznawaniu dźwięków instrumentów muzycznych. Przedyskutowano wpływ doboru parametrów opisowych na skuteczność rozpoznawania. W eksperymentach wykorzystano systemy decyzyjne działające w dziedzinie zbiorów przybliżonych oraz sztucznych sieci neuronowych. Dodatkowo wykonano eksperyment automatycznego rozpoznawania stylu muzycznego. Przytoczono wnioski.

Pozycja nr 464

Typ pozycji: referat konferencyjny

Autorzy G. Szwoch, B. Kostek

Tytuł angielski Modelling and Virtualising Hearing Aids

Tytuł polski Modelowanie i wirtualizacja aparatów słuchowych

Konferencja 2nd International Conference on Telemedicine and Multimedia Communication

Numer preprintu

Numer

Wolumin

Strony 63

Miejsce konferencji Kajetany, Polska

Data konferencji 8.10.2004- 9.10.2004

Abstract The earmold system of the Behind-The-Ear hearing aid is an acoustic duct that modifies the spectrum of the propagated sound waves. Improper selection of the earmold system may result in deterioration of sound quality and speech intelligibility. Computer modeling methods may be useful in the process of hearing aid fitting, allowing physician to examine various earmold system configurations and choose the optimum one for the hearing aid user. In this paper, a computer model based on the waveguide modeling method is proposed. The waveguide model simulates the propagation of sound waves in the system of cylindrical tubes. Frequency response of the hearing aid receiver is simulated in the model and the influence of the ear canal and eardrum on the earmold system is taken into account. The model parameters are easily calculated from parameters of physical hearing aid system. Transfer function of the model is calculated and frequency response plots are obtained using the MATLAB system. Comparison of model responses obtained for various parameter sets with measurement data proved that the proposed model accurately simulates the real earmold system and the developed model may be used to construct a computer system assisting the physician who performs the earmold system fitting.

Streszczenie Układ dźwiękowodu aparatu słuchowego jest przewodem akustycznym, który modyfikuje widmo przenoszonego dźwięku. Niewłaściwy dobór elementów dźwiękowodu może spowodować pogorszenie jakości dźwięku i zrozumiałości mowy. Metody modelowania komputerowego mogą być użyteczne w procesie doboru aparatu słuchowego, umożliwiając zbadanie właściwości akustycznych różnych konfiguracji dźwiękowodu i wybranie konfiguracji optymalnej dla użytkownika aparatu. W artykule opisano model komputerowy dźwiękowodu oparty na metodzie falowodowej. Model falowodowy symuluje propagację fal dźwiękowych w systemie cylindrycznych przewodów. Charakterystyka częstotliwościowa przetwornika odbiorczego aparatu słuchowego oraz wpływ przewodu słuchowego i błony bębenkowej na dźwiękowód zostały również uwzględnione w modelu. Parametry modelu mogą być w prosty sposób obliczone na podstawie parametrów fizycznego dźwiękowodu. Charakterystyka częstotliwościowa modelu jest obliczana i wykreślana przy użyciu systemu MATLAB. Porównanie charakterystyk modelu uzyskanych dla różnych zestawów parametrów z charakterystykami pomiarowymi pozwoliło stwierdzić że proponowany model wystarczająco dokładnie symuluje rzeczywisty dźwiękowód. Model falowodowy dźwiękowodu może zostać wykorzystany do skonstruowania systemu komputerowego wspomagającego proces dopasowywania dźwiękowodu aparatu słuchowego.

Pozycja nr 465

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek, J. Kotus

Tytuł polski Zastosowanie środków teleinformatycznych do diagnostyki zagrożeń hałasowych i chorób słuchu Część II – Multimedialny system monitorowania hałasu

Czasopismo Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne

Wolumin

Numer czasopisma 8-9

Strony 330 - 337

Rok 2004

Streszczenie Opisano koncepcję i implementację multimedialnego systemu powszechnego monitorowania hałasu. Celem opisywanego projektu jest przede wszystkim poprawa profilaktyki zdrowotnej w zakresie szumów usznych i dolegliwości psychosomatycznych, które dotyczą populacji przebywającej na obszarach zagrożonych hałasem. Opracowany system pozwala na pomiar hałasu i transmisję danych do serwera, który umożliwia ich analizę i wizualizację, m.in. w postaci map akustycznych. Ponadto, opracowany system pozwala na zbieranie subiektywnych opinii na temat hałasu i na analizę danych uzyskiwanych tym sposobem.

Pozycja nr 466

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, H. Skarżyński, P. Odya, B. Kostek

Tytuł angielski A Model of Digital Hearing Aid for the Implanted Patients Revealing Residual Acoustic Hearing

Tytuł polski Projekt i realizacja modelu subminiaturowego cyfrowego aparatu słuchowego dla osób implantowanych zachowujących resztki słuchowe

Konferencja II Międzynarodowa Konferecja Telemedycyny i Telekomunikacji Multimedialnej

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 8.10.2004- 9.10.2004

Uwagi plakat

Abstract Some recently published papers by Skarzynski et al., present a compelling demonstration of efficacy for a new treatment of severe hearing loss. The treatment combines electrical stimulation of the basal part of one cochlea, paired with acoustical stimulation of residual, low-frequency hearing on either the implanted side or both sides. Consequently, a need occurred to amplify and shift downwards frequency scale high-frequency acoustic signals, including speech consonants. Taking advantage of the recent progress in Digital Signal Processor (DSP) developments, a portable and reprogrammable digital hearing aid has been designed and implemented for shifting the speech frequency down to a lower frequency range with an algorithm based on a special resampling technique. Consequently, owing to hybrid signal processors it was possible to perform complex algorithms of signal processing at the same time providing a chance to make use of what is left of the hearing ability which has been out of reach of the hearing aids being used so far. The audio signal is proportionally transposed downwards the frequency scale by dividing each frequency component by a factor. This process compresses the speech spectrum in order to introduce as much information as possible into the limited audible frequency range of the hearing impaired listener. The developed digital hearing aid to be used by the implanted patients revealing residual hearing will be demonstrated in the poster paper.

Pozycja nr 467

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, J. Kotus, B. Kostek, K. Kochanek, H. Skarżyński

Tytuł angielski IT- Enabled Comparison of Environmental Noise Levels and Noise-Evoked Hearing Impairments

Tytuł polski Porównanie poziomów hałasu środowiskowego z uszkodzeniami słuchu wywołanych hałasem z wykorzystaniem systemów teleinformatycznych

Czasopismo Mechanika

Wolumin 23

Numer czasopisma 2

Strony 143 - 154

Rok 2004

Abstract The noise telemonitoring system, developed at the Multimedia Systems Department of the Gdansk University of Technology is discussed, aimed at environmental noise level monitoring. Apart from the global system characteristic, a more detailed system presentation was provided. The presentation covers descriptions of a mobile measurement unit, a computer noise measuring software, a USB sound interface with a measurement microphone, and an Internet application allowing for the automatic creation of noise maps on the basis of data received from computers or mobile phones employed to noise data acquisition. The implemented Internet system for screening testing of hearing is also described. The pair of engineered applications may help to diminish hearing diseases occurrence caused by environmental & industrial noise. The results of audiometric tests and of noise measurements will be compared systematically, on the basis of both systems database contents. The analysis of data captured by both systems underlies a discussion included in the paper, concerning the influence of excessive noise levels on the status of hearing sensitivity of large populations living or working in the areas endangered by noise.

Streszczenie Tematem pracy jest telemetryczny system monitorowania hałasu, opracowany w katedrze Systemów Multimedialnych Politechniki Gdańskiej, przeznaczony do zdalnego monitorowania poziomów hałasu środowiskowego. Oprócz ogólnej charakterystyki systemu zaprezentowano również szereg szczegółów implementacyjnych. Przedstawiono m.in. mobilne urządzenie pomiarowe, oprogramowanie do pomiarów hałasu, dźwiękowy interfejs USB wyposażony w mikrofon pomiarowy oraz Internetową aplikację, umożliwiającą automatyczne tworzenie prostych map hałasu w oparciu o dane pozyskane z urządzeń pomiarowych za pośrednictwem komunikacji bezprzewodowej. W artykule opisano również Internetowy system do przesiewowego badania słuchu. Oba prezentowane systemy mogą przyczynić się do zmniejszenia częstości występowania chorób słuchu, powodowanych prze nadmierny hałas, głównie środowiskowy i przemysłowy. Wyniki uzyskane przez poszczególne systemy będą systematycznie porównywane na podstawie danych zawartych w dedykowanych baz danych. Na podstawie analizy wyników pozyskanych przez oba systemy przeprowadzono dyskusję dotyczącą wpływu nadmiernego hałasu na wrażliwość na hałas dla dużej populacji osób zamieszkującej lub pracującej na obszarach zagrożonych hałasem.

Pozycja nr 468

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Kotus, B. Kostek

Tytuł angielski Comparing Noise Levels and Audiometric Testing Results Employing IT Based Diagnostic Systems

Tytuł polski Porównanie poziomów hałasu z wynikami przesiewowych testów audiometrycznych w oparciu o Internetowe systemy diagnostyczne

Konferencja The 33rd International Congress and Exposition on Noise Control Engineering INTERNOISE 2004

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Prague, Czech Republic

Data konferencji 22.8.2004- 24.8.2004

Abstract The implemented Internet system for screening testing of hearing is described. The noise environmental noise telemonitoring system is briefly discussed. The pair of engineered applications may help to diminish hearing diseases occurrence caused by environmental & industrial noise. The results of audiometric tests and of noise measurements were compared on the basis of both systems database contents. The analysis of data captured by both systems allows a discussion included in the paper concerning the influence of excessive noise levels on the status of hearing sensitivity of large populations living or working in the areas endangered by noise.

Streszczenie W referacie przedstawiono Internetowy system przeznaczony do przeprowadzania przesiewowych testów słuchu. Zaprezentowano również system informacyjny przeznaczony do monitorowania hałasu środowiskowego. Obie Internetowe aplikacje mogą być pomocne w zmniejszaniu częstości występowania chorób słuchu powodowanych przez hałas środowiskowy i przemysłowy. Porównano wyniki testów audiometrycznych z pomiarami hałasu na podstawie zawartości baz danych obu systemów. Na podstawie analizy danych zgromadzonych przez oba systemy omówiono również problem dotyczący wpływu nadmiernych poziomów hałasu na wrażliwość słuchową u dużych grup osób żyjących lub pracujących na obszarach zagrożonych hałasem.

Pozycja nr 469

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, P. Dalka, M. Dąbrowski, B. Kostek

Tytuł angielski MPEG-7-based low level descriptor effectiveness in the automatic musical sound classification

Tytuł polski Skuteczność parametrów opisowych MPEG-7 niskiego poziomu w automatycznej klasyfikacji dźwięków muzycznych

Konferencja 116 Audio Engineering Soc. Convention

Numer preprintu 6105

Numer

Wolumin

Strony

Miejsce konferencji Berlin, Niemcy

Data konferencji 8.5.2004- 11.5.2004

Abstract The objective of this paper is to determine which of the MPEG-7 standard low-level sound descriptors are the most significant in the process of automatic classification of musical instrument sounds. First, pitch detection is performed. Then, the parametrization stage of musical sounds based on descriptors contained in the MPEG-7 standard is carried out. Next, a thorough statistical analysis of the feature vectors obtained is performed. For the purpose of automatic classification, two decision systems based on artificial neural networks (ANNs) and rough sets, are used. Both decision systems are trained with feature vectors consisted mostly of parameters contained in the MPEG-7 standard, however their content being reduced after statistical analyses. In addition, a comparison of results obtained by these decision systems with the results got from the nearest neighbor algorithm is made.

Streszczenie Celem referatu jest określenie, które z parametrów opisowych MPEG-7 są najbardziej przydatne w klasyfikacji dźwięków instrumentów muzycznych. Określana jest wysokość dźwięku a następnie wyznaczane są wartości parametrów zawartych w standardzie MPEG-7. Otrzymany wektor parametrów poddawany jest analizie statystycznej w celu wyeliminowania danych nadmiarowych. Do celów automatycznej klasyfikacji i testów zaprojektowano dwa systemy decyzyjne, oparte na sztucznej sieci neuronowej oraz zbiorach przybliżonych. Wyniki klasyfikaji porównywane są z wynikami działania algorytmu najbliższych sąsiadów.

Pozycja nr 470

Typ pozycji: artykuł w czasopiśmie

Autorzy M. Dziubiński, B. Kostek

Tytuł angielski High Accuracy and Octave Error Immune Pitch Detection Algorithms

Tytuł polski Dokładne i Odporne na Błędy Oktawowe Algorytmy Detekcji Częstotliwości Podstawowej

Czasopismo Archives of Acoustics

Wolumin 29

Numer czasopisma 1

Strony 1 - 21

Rok 2004

Abstract The aim of this paper is to present a method improving pitch estimation accuracy, showing high performance for both synthetic harmonic signals and musical instrument sounds. This method employs an Artificial Neural Network of a feed-forward type. In addition, octave error optimized pitch detection algorithm, based on spectral analysis is introduced. The proposed algorithm is very effective for signals with strong harmonic, as well as nearly sinusoidal contents. Experiments were performed on a variety of musical instrument sounds and sample results exemplifying main issues of both engineered algorithms are shown.

Streszczenie W publikacji przedstawiona została metoda poprawiająca dokładność estymacji częstotliwości podstawowej dźwięków naturalnych i syntetycznych. Opracowany algorytm wykorzystuje sztczną sieć neuronową. Dodatkowo przedstawiony został algorytm zoptymalizowany pod kątem błędów oktawowych, operujący w dziedzinie częstotliwości. Przedstawiona metoda jest bardzo skuteczna zarówno dla sygnałów harmonicznych o znaczącej energii poszczególnych składowych sinusoidalnych, jak i dla sygnałów niemalże sinusoidalnych, nie zawierających składowych harmonicznych. Wynik działania obu metod zaprezentowane zostały w oparciu o obszerną bibliotekę przeanalizowanych dźwięków.

Pozycja nr 471

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Application of Soft Computing to Automatic Music Information

Tytuł polski Zastosowanie metod soft computingu do automatycznej klasyfikacji instrumentów muzycznych

Czasopismo Journal of the American Society for Information Science and Technology

Wolumin 55

Numer czasopisma 12

Strony 1108 - 1116

Rok 2004

Abstract There are many problems in musical signal domain that are not solved up to now. Among such problems one can list automatic recognition and editing of musical sound patterns, retrieval of audio material, detection of transient states and articulation features in sounds. However it seems that the key challenge is in building inexpensive browsers of audio material contained in multimedia bases and Internet sites. This overview shows motivation, intermediate and long-term goals of the research projects conducted for several years in the Multimedia Systems Department, Gdansk University of Technology, Poland.

Streszczenie Artykuł przedstawia problemy związane z automatyczną klasyfikacją instrumentów muzycznych. Przedstawiono w nim przegląd metod, które moga służyć temu celowi oraz przykłady eksperymentów. Słowa kluczowe: automatyczna klasyfikacja instrumentów muzycznych

Pozycja nr 472

Typ pozycji: referat konferencyjny

Autorzy P. Szczuko, B. Kostek

Tytuł angielski Exploiting Audio-Visual Correlation Between Surround Sound and Animated Objects

Konferencja 23. Tonmeistertagung, VDT International Audio Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Lipsk, Niemcy

Data konferencji 5.11.2004- 8.11.2004

Uwagi Proc. wydane w 2005

Abstract The paper aims at revealing in which way and how the surround sound interferes or is associated with the visual context. The visual image consists of animated objects, which are computer generated, but created according to traditional animation rules. The paper presents first a review of perceptual phenomena related to audio-visual tests. Subjective tests are then performed in order to evaluate realism of visual objects that are made with and without respect to the animation rules but associated with appropriate sound effects. Quality, time-related, spatial correlation and correlation between animated objects and sound volume are described and discussed.

Streszczenie Zadaniem referatu jest określenie czy, i w jaki sposób, dźwięk dookólny wpływa na przekaz wizualny lub jak jest z nim związany. Wykorzystano animowane sekwencje wideo, generowane są komputerowo, jednak stworzone zgodnie z tradycyjnymi regułami animacji. Dokonano przeglądu testów związanych ze zjawiskami percepcji audio-wizualnej. Przeprowadzono testy subiektywne, w celu oceny realizmu ruchu przebiegającego zgodnie z regułami oraz niezgodnie z nimi, jednak z towarzyszeniem adekwatnych efektów dźwiękowych. Opisano i przedyskutowano związki pomiędzy postrzeganiem jakości animacji, synchronizmu, koleracji przestrzennej i powiązania między animacją obiektów a głośnością dźwięku.

Pozycja nr 473

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, P. Szczuko

Tytuł angielski Feature vector selection for automatic musical style classification

Tytuł polski Badanie wektora parametrów do automatycznego rozpoznawania stylów muzycznych

Czasopismo Zeszyty Naukowe Wydziału ETI PG

Wolumin

Numer czasopisma 5

Strony 975 - 982

Rok 2004

Abstract In this paper an analysis of parameter effectiveness contained in the feature vector for automatic classification of a musical style is described. For the purpose of experiments a database was constructed including fragments of music from approximately 500 compact discs representing various categories of music. Audio files were gathered according to their styles, based on metadata description compatible to the format of the widely-used CDDB database available in the Internet. The process of automatic classification of musical styles consisted in three blocks: signal segmentation, parametrization and classification employing rough set-based decision system. Selected parameters included in the MPEG-7 standard were used in the parametrization process. The experimental results show that based on the extracted features from music it is possible to recognize a musical style of an audio file.

Streszczenie W referacie przedstawiono badania nad doborem parametrów w wektorze cech, służącego do automatycznego rozpoznawania stylu utworów muzycznych. W celu przeprowadzenia eksperymentów zbudowano bazę danych muzycznych zawierającą fragmenty utworów z kilkuset płyt kompaktowych. Zgromadzone utwory przydzielono do odpowiednich stylów muzycznych, wykorzystując w tym celu format danych zawarty na płytach kompaktowych, służący do opisu płyt CD w Internecie. W procesie automatycznej klasyfikacji obiektów wykorzystano trzy bloki składowe: segmentację sygnałów, parametryzację sygnałów oraz klasyfikację obiektów w oparciu o system decyzyjny oparty o metodę zbiorów przybliżonych. W procesie parametryzacji wykorzystywano opis cech zawarty w standardzie MPEG-7. Uzyskane wyniki wskazują, iż możliwe jest automatyczne rozpoznawanie stylu utworu muzycznego w oparciu o analizowany wektor cech.

Pozycja nr 474

Typ pozycji: referat konferencyjny

Autorzy J. Wójcik, P. Holonowicz, B. Kostek

Tytuł angielski Neural Network and Data Mining Approaches to Estimate the Salience of Musical Sound in Melody

Tytuł polski Wykorzystanie sztucznych sieci neuronowych i metod data mining do automatycznego wyszukiwania wartości rytmicznych

Konferencja 23. Tonmeistertagung, VDT International Audio Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Lipsk, Niemcy

Data konferencji 5.11.2004- 8.11.2004

Uwagi Proc. wydane w 2005

Abstract This paper describes an effort made by its authors to improve precision and recall of systems retrieving musical rhythm. The task of such systems is to find multi-level evenly spaced music accents, appropriate for a particular piece of music. Authors of this paper used Data Mining and Artificial Neural Network approaches to estimate rhythmic salience of sounds in a melody on the basis of sound physical attributes – duration, frequency and amplitude. Having this knowledge, it is possible to rank the rhythmic hypotheses and find the rhythm of a given melody, which may result in applications of automated music identification or systems creating automatic drum accompaniment to a given melody.

Streszczenie W referacie przedstawiono eksperymenty majace na celu automatyczne wyszukiwanie wartości rytmicznych we frazie muzycznej. W tym celu wykorzystano sztuczne sieci neuronowe i metody data mining.

Pozycja nr 475

Typ pozycji: referat konferencyjny

Autorzy A. Walkowiak, A. Czyżewski, A. Lorens, B. Kostek

Tytuł angielski New Techniques Assisting Cochlear Implants Fitting

Tytuł polski Techniki wspomagania procesu dopasowania implantów ślimakowych

Konferencja 117 Audio Eng. Society Convention

Numer preprintu 6287

Numer

Wolumin

Strony 1 - 4

Miejsce konferencji San Francisco, USA

Data konferencji 28.10.2004- 31.10.2004

Abstract Measurement of Spread of Excitation (SoE) provides a potential method of assessment of cochlear implant users' benefit. To provide maxiumum benefit for the cochlear implant useres the speech processor should be fitted to the patients' need. One objective method that could deliver important information for fitting is Neural Response Telemetry (NRT). This method helps to estimate an amplitude of electrical current that is required to elicit hearing sensation via cochlear implant.

Streszczenie W referacie przedstawiono metodę telemetrii odpowiedzi neuronalnej (SoE), którą zastosowano w celu oceny amplitudy sygnału, która będzie wywoływała percepcję słuchową poprzez pobudzenie elektrod implantu ślimakowego. Jest to obiektywna metoda wyznaczania skuteczności systemów implantów ślimakowych.

Pozycja nr 476

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Dziubiński, P. Dalka

Tytuł angielski Comparison of Effectiveness of Musical Sound Separation Algorithms Employing Neural Networks

Tytuł polski Porównanie Algorytmów Separacji Przy Wykorzystaniu Sieci Neuronowych

Konferencja 117th AES Convention

Numer preprintu 6310

Numer

Wolumin

Strony

Miejsce konferencji San Francisco, USA

Data konferencji 28.10.2004- 31.10.2004

Abstract In this paper several algorithms are presented, developed for musical sound separation. The proposed techniques for the decomposition of mixed sounds are based on the assumption that pitch of the sounds contained in the mix is known, i.e. inputs of the algorithms are pitch tracks of the signals contained in the mixture. The estimation process of phase and amplitude contours representing harmonic components is based on the limited number of inner product operations, performed on the signal with the use of complex exponentials matching pitch characteristics of the separated signals, and not on the discrete spectral representations calculated via DFT. In this paper examples of separation results are presented and each algorithm performance is analyzed. The effectiveness of separation algorithms consists in calculation of feature vectors (FVs) derived from musical sounds after the separation process is performed, and then in feeding them the Neural Network (NN) for automatic musical sound identification. The experimental results are shown and discussed. A comparison of effectiveness of all presented algorithms is also included, and conclusions are derived

Streszczenie Niniejszy referat przedstawia kilka algorytmów służących do separacji dźwięków instrumentów muzycznych. Zaproponowane podejście do dekompozycji miksów dźwiękowych opiera się na założeniu, że wysokość dźwięków w miksie jest znana, tzn. wejściem dla algorytmów jest przebieg zmian wysokości dźwięków składowych miksu. Proces estymacji fazy i amplitudy składowych harmonicznych wykorzystuje dopasowywanie zespolonych przebiegów harmonicznych do charakterystyki zmian wysokości odseparowywanych sygnałów. Nie jest stosowana dyskretna reprezentacja widmowa oparta o DFT. W pracy znajdują się przykładowe efekty separacji oraz analiza działania każdego algorytmu. W celu określenia skuteczności działania algorytmów separacji, wektory cech, wyznaczone dla dźwięków po procesie separacji, były podawane na wejście sieci neuronowej wytrenowanej do zadań automatycznej klasyfikacji dźwięków instrumentów muzycznych. Praca zawiera porównanie skuteczności działania wszystkich algorytmów oraz wyciągnięte na tej podstawie wnioski.

Pozycja nr 477

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski PROBLEMS RELATED TO EXTRACTION OF MUSICAL INFORMATION FROM THE INTERNET

Tytuł polski PROBLEMY I METODY WYSZUKIWANIA INFORMACJI MUZYCZNEJ W INTERNECIE

Konferencja Inżynieria Wiedzy i Systemy Ekspertowe

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Wrocław, PL

Data konferencji 5.2003

Abstract The aim of this paper is to present some assumptions related to the implementation of multimedia system for musical information extraction working as an Internet service. Algorithmic tools that could be employed in the process of automatic extraction of musical information are also discussed. On the basis of some examples the effectiveness of the Feature Vector used in the engineered system is shown. Feature Vector consists of parameters contained in the MPEG-7 standard and those extracted on the basis of the wavelet analysis. Experiments are carried out employing Artificial Neural Networks. Sample results are shown and discussed. Conclusions are also included.

Streszczenie Celem referatu jest przedstawienie założeń konstrukcyjnych i implementacyjnych multimedialnego systemu rozpoznawania informacji muzycznej udostępnianego jako serwis internetowy. Konstruowana baza danych obejmuje zarówno nagrania sygnałów fonicznych, nagrania w formacie MIDI, jak i opis metadata. W referacie przedyskutowano algorytmy, które mogą być zastosowane do automatycznej ekstrakcji informacji muzycznej. Przebadano skuteczność wetora cech, który stanowi reprezentację parametryczną danych muzycznych. Przedstawiono wyniki przykładowego eksperymentu mającego na celu zbadanie skuteczności automatycznej identyfikacji informacji muzycznej w oparciu o wektor cech zawierający parametry zdefiniowane w standardzie MPEG-7 i wyznaczone w oparciu o analizę falkową,. Eksperymenty te prowadzone są w oparciu o system decyzyjny bazujący na algorytmach uczących się.

Pozycja nr 478

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski "Computing with words" Concept Applied to Musical Information Retrieval

Tytuł polski Przetwarzanie słów jezyka naturalnego w zastosowaniu do wyszukiwania informacji muzycznej

Czasopismo Electronic Notes in Theoretical Computer Science

Wolumin 82

Numer czasopisma 4

Strony 1 - 12

Rok 2003

Abstract The objective of the paper is to provide cognitive-based mechanisms underlying processing of musical instrument sounds. The system proposed by the author based on the rough set method and on fuzzy logic provides knowledge on how humans internally represent such notions as quality and timbre and therefore it allows for the human-like automatic processing of musical data. Therefore "Computing with words" concept can be used in musical information retrieval domain by offering better processing of subjective descriptors of musical instrument sounds and enabling the analysis of data that would result in extraction of semantic information related to musical instrument sounds. This paper shows first a review of developments in the domain of timbre mapping and classification. A decision table is built of semantic descriptors of musical instrument sounds, then rules extracted by the rough set method and the processing of musical timbre based on fuzzy logic is shown. An example of rough-fuzzy processing is given and conclusions are derived.

Streszczenie W artykule zaproponowano wykorzystanie koncepcji "przetwarzania słów języka naturalnego" do znalezienia związku pomiędzy wybranymi parametrami dźwięków muzycznych a subiektywnie postrzeganą barwą. W pierwszej kolejności przedstawiono klasyczne metody mapowania parametrów mierzalnych i ich subiektywnych odpowiedników, następnie zbudowano bazę wiedzy w oparciu o wyniki testów subiektywnych. W procesie obróbki wykorzystano metodę opartą o zbiory przybliżone i wnioskowanie rozmyte.

Pozycja nr 479

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski The Multimedia Hearing Training System for Hearing Impaired People

Tytuł polski Multimedialny system treningu słuchowego dla osób niedosłyszących

Konferencja I Międzynarodowa Konferencja Telemedycyny i Telekomunikacji Multimedialnej

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji

Data konferencji 10.10.2003- 12.10.2003

Abstract A large majority of hearing aid fitting systems are focused on improving the speech understanding, because the speech is the base of people communication. A hearing aid fitting problem could be simply describe as a problem with fitting wide dynamic of speech signal to narrow dynamic of impaired hearing. To solve the problem the majority hearing aids use dynamic processors like compressor and exspander. The aim of the experiments was to design multimedia computer system which could be helpful for: - measurement of impaired hearing dynamic characteristic; - making approximate hearing impairment simulation; - obtaining dynamic characteristic of desired hearing aid; - making approximate hearing aid simulation; In the system was implemented LGOB loudness scaling test. The results of the LGOB test are the base for the hearing dynamic characteristic calculating. Base of the dynamic characteristic the system can make approximate hearing impairment simulation. The desired hearing aid dynamic characteristic is obtained as the compensation of impaired hearing dynamic characteristic. Using the hearing aid dynamic characteristic the system makes approximate simulation. For the both kind of simulation the system uses numerous recorded speech signal (logatoms, Polish words and Polish sentences). The hearing trainings are carried out based on the implemented hearing aid simulation algorithm and stored speech signal database. The details of the elaborated system will be presented in the paper.

Streszczenie Większość systemów dopasowania protez słuchu skupia się na poprawie zrozumienia mowy, ponieważ sygnał mowy jest podstawowym sposobem komunikowania się ludzi. W uproszczeniu problem dopasowania protezy słuchu może byc przedstawiony jako problem dopasowania szerokiej dynamiki sygnału do wąskiej dynamiki uszkodzonego słuchu. Do rozwiązania tego problemu większość protez słuchu wykorzystuje procesory dynamiki takie jak: kompresor i ekspander. Celem eksperymentó było stworzenie multimedialnego systemu, który byłby pomocny w: - pomiarze charakterystyki dynamiki słuchu; - tworzeniu przybliżonych symulacji ubytku słuchu; - obliczaniu poszukiwanej charakterystyki dynamiki protezy słuchu; - przeprowadzaniu przybliżonych symulacji według wyznaczonych charakterytyk protez słuchu; W systemie został zaimplementowany algorytm skalowania głośności w pasmach oktawowych. Jego wyniki są podstawą do wyznaczenia charakterystyki dynamiki uszkodzonego słuchu. Dzięki kompensacji charakterystyki dynamiki słuchu w systemie wyznaczana jest charakterystyka dynamiki protezy słuchu. W oparciu o tą wyznaczoną charakterystykę w systemie przeprowadzane są przyblizone symulacje, w których wykorzystywany jest sygnał mowy w postaci nagrań logatomów, słów i zdań w języku polskim. Szczególy opracowanego systemu są przedmiotem niniejszego plakatu.

Pozycja nr 480

Typ pozycji: książka

Autorzy B. Kostek

Tytuł angielski Rough-Neuro Approach to Testing Influence of Visual Cues on Surround Sound Perception

Tytuł polski Badanie wpływu obrazu wizyjnego na percepcję dźwięku dookólnego

Wydawca S. K. Pal, L. Polkowski, A. Skowron ed. ROUGH-NEURO COMPUTING: A WAY TO COMPUTING WITH WORDS, Springer Verlag, Series on Artificial Intelligence

Strony 555 - 572

Rok 2003

Uwagi Chapter 22

Abstract The paper aims at revealing in which way and how the surround sound interferes or is associated with the visual context. Such parameters as distance, angle or level of sound source were tested with and without video image presence in the screen. For that purpose subjective testing was applied. Processing of the obtained results has been done employing genetic algorithm and the combined neural network and rough set system. The main task of experiments was the application of modular neural networks for the purpose of quantization of the surround sound parameter values. The rough set algorithm was used to make decisions showing the influence of visual cues on the perception of surround sound.

Streszczenie W rozdziale przedstawiono problem wpływu obrazu na odbierany w systemie dookólnego dźwięk. W celu określenia tego wpływu przeprowadzono testy subiektywne. Do obróbki wyników testów subiektywnych użyto systemu hybrydowego złożonego z algorytmu genetycznego, sieci neuronowej oraz algorytmu opartego o metodę zbiorów przybliżonych. Zadaniem tego ostatniego elementu systemu było wyznaczenie reguł opisujących wpływ postrzeganego obrazu na odbierany dźwięku w systemie dookólnym.

Pozycja nr 481

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, A. Kaczmarek, B. Kostek

Tytuł angielski Intelligent Processing of Stuttered Speech

Tytuł polski Inteligentne przetwarzanie mowy osob jąkających się

Czasopismo Journal of Intelligent Information Systems

Wolumin 21:2

Numer czasopisma

Strony 143 - 171

Rok 2003

Abstract The process of counting stuttering events could be carried out more objectively through the automatic detection of stop-gaps, syllable repetitions and vowel prolongations. The alternative would be based on the subjective evaluations of speech fluency and may be dependent on a subjective evaluation method. Meanwhile, the automatic detection of intervocalic intervals, stop-gaps, voice onset time and vowel durations may depend on the speaker and the rules derived for a single speaker might be unreliable when trying to consider them as universal ones. This implies that learning algorithms having strong generalization capabilities could be applied to solve the problem. Nevertheless, such a system requires vectors of parameters, which characterize the distinctive features in a subject’s speech patterns. In addition, an appropriate selection of the parameters and feature vectors while learning may augment the performance of an automatic detection system. The paper reports on automatic recognition of stuttered speech in normal and frequency altered feedback speech. It presents several methods of analyzing stuttered speech and describes attempts to establish those parameters that represent stuttering event. It also reports results of some experiments on automatic detection of speech disorder events that were based on both rough sets and artificial neural networks.

Streszczenie Proces zliczania nieprawidłowo artykułowanych elementów mowy osób jakających się może być znacząco ułatwiony i zobiektywizowany poprzez zastosowanie automatycznej detekcji przerw, powtórzeń i przedłużeń. W artykule zaprezentowano kilka metod analizy i automatycznego zliczania potknięć artykulacyjnych, związanych z jąkaniem się, opartych na wykorzystaniu algorytmów uczących się - sztucznych sieci neuronowych i zbiorów przybliżonych.

Pozycja nr 482

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Szczuko

Tytuł angielski Searching for Correlation between Multidimensional Feature Vector and Musical Timbres

Tytuł polski Poszukiwanie korelacji pomiędzy parametrami wektora cech i barwą dźwięku

Konferencja X Sympozjum Reżyserii i Inżynierii Dźwięku ISSET 2003

Numer preprintu

Numer

Wolumin

Strony 69 - 74

Miejsce konferencji Wrocław, Polska

Data konferencji 11.9.2003- 13.9.2003

Abstract In the paper a proposal was outlined concerning searching for correlation between parameters and musical timbre. The procedure involves first statistical analysis of parameter values. Next, discretization process is performed based on fuzzy logic principles. In the experiments all parameter value domains are limited to five ranges in order to facilitate a comparison between objective analysis and subjective tests. Experts' task in listening tests is to assign semantic description to presented sounds. The next step of the procedure is extraction of rules from the gathered data based on the rough set method. The ROSETTA system is used for this purpose. The derived rules serve then for automatic classification of musical instruments. Some exemplary results are shown and conclusions are derived.

Streszczenie Przedstawiono algorytm poszukiwania korelacji między wartościami parametrów dźwięku a jego barwą. Wykonywana jest analiza statystyczna wartości przyjmowanych przez parametry, następnie, w oparciu o logikę rozmytą, dyskretyzacja. Dziedziny parametrów dzielone są na maksymalnie pięć przedziałów w celu umożliwienia porównania analizy obiektywnej z subiektywną. Zadaniem ekspertów w teście odsłuchowym jest dopasowanie określenia semantycznego do prezentowanych dźwięków. Następny etap to wydobycie reguł w oparciu o metodę zbiorów przybliżonych. Do tego celu wykorzystywany jest system ROSETTA. Reguły służą do automatycznej klasyfikacji dźwięków instrumentów muzycznych. Przedstawione są wnioski i przykładowe wyniki.

Pozycja nr 483

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski "Computing with words" Concept Applied to Musical Information Retrieval

Tytuł polski Przetwarzanie słów jezyka naturalnego w zastosowaniu do wyszukiwania informacji muzycznej

Konferencja RSKD - International Workshop on Rough Sets in Knowledge Discovery and Soft Computing, ETAPS 2003

Numer preprintu

Numer

Wolumin

Strony 141 - 152

Miejsce konferencji Warsaw, Poland

Data konferencji 5.4.2003- 13.4.2003

Abstract The objective of the paper is to provide cognitive-based mechanisms underlying processing of musical instrument sounds. The system proposed by the author based on the rough set method and on fuzzy logic provides knowledge on how humans internally represent such notions as quality and timbre and therefore it allows for the human-like automatic processing of musical data. Therefore "Computing with words" concept can be used in musical information retrieval domain by offering better processing of subjective descriptors of musical instrument sounds and enabling the analysis of data that would result in extraction of semantic information related to musical instrument sounds. This paper shows first a review of developments in the domain of timbre mapping and classification. A decision table is built of semantic descriptors of musical instrument sounds, then rules extracted by the rough set method and the processing of musical timbre based on fuzzy logic is shown. An example of rough-fuzzy processing is given and conclusions are derived.

Streszczenie W artykule zaproponowano wykorzystanie koncepcji "przetwarzania słów języka naturalnego" do znalezienia związku pomiędzy wybranymi parametrami dźwięków muzycznych a subiektywnie postrzeganą barwą. W pierwszej kolejności przedstawiono klasyczne metody mapowania parametrów mierzalnych i ich subiektywnych odpowiedników, następnie zbudowano bazę wiedzy w oparciu o wyniki testów subiektywnych. W procesie obróbki wykorzystano metodę opartą o zbiory przybliżone i wnioskowanie rozmyte.

Pozycja nr 484

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Suchomski

Tytuł angielski Automatic Assesment of the Hearing Aid Dynamics Based on Fuzzy Logic

Tytuł polski Automatyczna ocena dynamiki aparatu słuchowego z zastosowaniem logiki rozmytej

Konferencja 3rd IASTED International Conference Artificial Intelligence and Applications

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Benalmadena, Hiszpania

Data konferencji 8.9.2003- 10.9.2003

Abstract Some principles of the fuzzy logic-based hearing fitting system are shown. A discussion on how to process loudness scaling results is presented. Then, details related to approximation of the membership functions corresponding to hearing sensation are discussed. Conclusions are also drawn.

Streszczenie Przedstawiono podstawy koncepcyjne systemu dopasowania protez słuchu opartego na logice rozmytej. Przeprowadzono dyskusje na temat metody skalowania głośności. Następnie podano szczegóły procesu aproksymacji funkcji przynależności odzwierciedlających słuchowe wrażenia głośności. Załączono wnioski.

Pozycja nr 485

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Żwan, M. Dziubiński

Tytuł angielski Musical Sound Parameters Revisited

Tytuł polski Badania parametry dźwięków muzycznych

Konferencja Music Acoustics Conference

Numer preprintu

Numer

Wolumin

Strony 623 - 626

Miejsce konferencji Stockholm, Sweden

Data konferencji 6.8.2003- 9.8.2003

Abstract Recently, a new standard MPEG-7 was established. A set of parameters was defined in order to represent musical sound as a multimedia object. These so-called low level features are related to time and frequency domain of musical sounds, as well as to audio waveform parameters.Among others, the following parameters were specified within the standard: log attack tima, temporal centroid, spectral flatness and spectrum spread, spectral centroid, harmonic variation, etc. Some of these parameters are related to human cognition of musical sounds whereas others not or the relationship between those parameters and their perceptual meaning in not yet defined. Therefore the principal aim of the paper is to carry on a discussion as to which of the parameters defined in within MPEG-7 standard could be related to musical timbre. This is done by means of listening tests. Additionally the set of parameters is used in experiments consisting in automatic recognition of musical instrument sound and separation of musical duets. Results of experiments are described and conclussions drawn and included.

Streszczenie W artykule przedstawiono wybrane parametry dźwięków muzycznych zawarte w standardzie MPEG-7. Standard ten określa zbiór parametrów, przy pomocy których można automatycznie indeksować materiał audio w multimedialnej bazie danych. Niektóre z opisanych w standardzie MPEG-7 parametrów są związane z subiektywnym postrzeganiem dźwięków muzycznych przez człowieka, dlatego głównym problemem staje się ilościowe powiązanie wartości liczbowych z subiektywnie postrzeganą barwą dźwięku. W tym celu stosowane są subiektywne testy odsłuchowe. W referacie przedstawiono dodatkowo zagadnienie rozpoznawania dźwięków w kontekście separacji duetów instrumentalnych.

Pozycja nr 486

Typ pozycji: referat konferencyjny

Autorzy G. Szwoch, B. Kostek, A. Czyżewski

Tytuł angielski Computer Modeling As a Useful Tool For Designing Acoustical Elements of Hearing Aid

Konferencja VII Międzynarodowa Konferencja Implantów Ślimakowych i Medycyny Audiologicznej

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 22.5.2003- 24.5.2003

Abstract One of the most difficult aspects of hearing aid fitting is the proper choice of acoustical elements, including earmold. The aim of the research was to propose a computer tool that may be useful in this process. The computer model of the acoustical system of hearing aid is based on the physical waveguide modeling method. The algorithm computes and plots frequency response of the acoustical system. It is possible to examine the relationship between modification of the model parameters and respective changes in frequency response. Some chosen acoustical properties of the ear are implemented in the model. Although the model is simplified at this stage of research, comparison of model responses with the measurement data of real acoustical elements proved that the model behaves similarly to the physical system. In order to provide more accurate simulation of sound processing in hearing aid, dynamic signal compression was also included in the model. Signal processing procedures are performed independently in four frequency bands, compatible to LGOB examination. The complete model is implemented in Matlab as a computer program with graphical user interface. The ongoing listening tests with hearing-impaired people will be useful in validation of the model. The fully developed computer system is intended to be a helpful tool assisting the person who chooses the acoustical elements of hearing aid. It will enable one to design the acoustical system with acoustical properties optimal for the hearing aid user’s needs.

Streszczenie Jednym z najtrudniejszych aspektów dopasowywania aparatów słuchowych jest odpowiedni dobór elementów akustycznych aparatu, w tym wkładki usznej. Celem badań było zaproponowanie komputerowego narzędzia pomocnego w tym procesie. Model komputerowy akustycznego systemu aparatu słuchowego oparty jest na metodzie modelowania falowodowego. Algorytm oblicza i wykreśla charakterystykę częstotliwościową układu akustycznego. Możliwe jest zbadanie zależności pomiędzy zmianami wartości parametrów a odpowiadającym im zmianom charakterystyki częstotliwościowej. Pomimo tego, że na tym etapie badań zastosowano uproszczony model, porówanie charakterystyk modelu z charakterystykami pomiarowymi rzeczywistych elementów akustycznych aparatu słuchowego wykazało, że model odwzorowuje działanie rzeczywistego układu. W celu bardziej dokładnego odtworzenia procesu przetwarzania sygnału w aparacie słuchowym, do modelu dołączono blok dynamicznej regulacji poziomu sygnału. Przetwarzanie sygnału dokonywane jest niezależnie w czterech pasmach częstotliwości. Model komputerowy został zaimplementowany w systemie Matlab w postaci programu z graficznym interfejsem użytkownika. W celu weryfikacji poprawności działania modelu zostaną przeprowadzone testy odsłuchowe z udziałem osób z upośledzonym słuchem. Celem badań jest opracowanie pełnego komputerowego systemu służącego do projektowania akustycznych elementów aparatu słuchowego. Model ten będzie pomocny w procesie doboru aparatu słuchowego, pozwalając na dobranie elementów akustycznych aparatu najlepiej dopasowanych do potrzeb użytkownika aparatu.

Pozycja nr 487

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek, A. Czyżewski

Tytuł angielski The Multimedia Hearing Training System for Hearing Impaired People

Tytuł polski Multimedialny system treningu słuchowego dla osób niedosłyszących

Konferencja Prezentacja plakatowa na VII Międzynarodowej konferencji implantów ślimakowych i medycyny audiologicznej

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Kajetany, Polska

Data konferencji 22.5.2003- 22.5.2003

Abstract A large majority of hearing aid fitting systems are focused on improving the speech understanding, because the speech is the base of people communication. A hearing aid fitting problem could be simply describe as a problem with fitting wide dynamic of speech signal to narrow dynamic of impaired hearing. To solve the problem the majority hearing aids use dynamic processors like compressor and exspander. The aim of the experiments was to design multimedia computer system which could be helpful for: - measurement of impaired hearing dynamic characteristic; - making approximate hearing impairment simulation; - obtaining dynamic characteristic of desired hearing aid; - making approximate hearing aid simulation; In the system was implemented LGOB loudness scaling test. The results of the LGOB test are the base for the hearing dynamic characteristic calculating. Base of the dynamic characteristic the system can make approximate hearing impairment simulation. The desired hearing aid dynamic characteristic is obtained as the compensation of impaired hearing dynamic characteristic. Using the hearing aid dynamic characteristic the system makes approximate simulation. For the both kind of simulation the system uses numerous recorded speech signal (logatoms, Polish words and Polish sentences). The hearing trainings are carried out based on the implemented hearing aid simulation algorithm and stored speech signal database. The details of the elaborated system will be presented in the paper.

Streszczenie Większość systemów dopasowania protez słuchu skupia się na poprawie zrozumienia mowy, ponieważ sygnał mowy jest podstawowym sposobem komunikowania się ludzi. W uproszczeniu problem dopasowania protezy słuchu może byc przedstawiony jako problem dopasowania szerokiej dynamiki sygnału do wąskiej dynamiki uszkodzonego słuchu. Do rozwiązania tego problemu większość protez słuchu wykorzystuje procesory dynamiki takie jak: kompresor i ekspander. Celem eksperymentó było stworzenie multimedialnego systemu, który byłby pomocny w: - pomiarze charakterystyki dynamiki słuchu; - tworzeniu przybliżonych symulacji ubytku słuchu; - obliczaniu poszukiwanej charakterystyki dynamiki protezy słuchu; - przeprowadzaniu przybliżonych symulacji według wyznaczonych charakterytyk protez słuchu; W systemie został zaimplementowany algorytm skalowania głośności w pasmach oktawowych. Jego wyniki są podstawą do wyznaczenia charakterystyki dynamiki uszkodzonego słuchu. Dzięki kompensacji charakterystyki dynamiki słuchu w systemie wyznaczana jest charakterystyka dynamiki protezy słuchu. W oparciu o tą wyznaczoną charakterystykę w systemie przeprowadzane są przyblizone symulacje, w których wykorzystywany jest sygnał mowy w postaci nagrań logatomów, słów i zdań w języku polskim. Szczególy opracowanego systemu są przedmiotem niniejszego plakatu.

Pozycja nr 488

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Żwan

Tytuł angielski Extraction of music information based onartificialneural networks

Konferencja 3rd IASTED International Conference ARTIFICIAL INTELLIGENCE AND APPLICATIONS

Numer preprintu

Numer

Wolumin

Strony 601 - 604

Miejsce konferencji Banalmadena, Spain

Data konferencji 8.9.2003- 10.9.2003

Abstract The aim of this paper is to show assumptions of a system for automatic recognition of music and musical sounds. The effectiveness of the implemented algorithms for the automatic recognition of musical instruments is presented on the basis of experiments. A discussion on the influence of the choice of descriptors on the recognition score is included. Experiments are carried out basing on a decision system employing Artificial Neural Networks. Conclusion is also included.

Streszczenie W artykule przedstawiono założenia systemu automatycznego rozpoznawania muzyki. Na podstawie przeprowadzonych eksperymentów w artykule przedstawiono efektywność zaimplementowanych algorytmów w zależności od sposobu opisu danych muzycznych. Zaimplementowany system jest oparto o sztuczne sieci neuronowe.

Pozycja nr 489

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski WAVEGUIDE MODELLING OF THE PANPIPES

Tytuł polski Falowodowy model Fletni Pana

Konferencja Music Acoustics Conference

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Stockholm, Szwecja

Data konferencji 6.8.2003- 9.8.2003

Abstract The principal aim of this paper is to present a digital waveguide model of the Panpipes. For the efficient modeling of the Panpipes instrument its structure and its physics were studied and thoroughly discussed. The acquired knowledge was then used during the construction of the model. In this context principles of the digital waveguide modeling of woodwind instruments are shortly reviewed. Because of the simplicity of designing the digital waveguide as a set of delay lines and scattering junctions the model can be easily implemented to a digital signal processor. In the paper two digital waveguide models of the Panpipes instruments were presented. They differ from each other by their complexity. This was due to examining the influence of decreasing the complexity of the model on the synthetic sound quality. The performed subjective tests resulted in showing that introduced simplifications in digital waveguide models reveal no noticeable influence on the sound quality. A comparison between synthetic and real Panpipes sounds was made. The results of both subjective tests and objective analyses obtained using engineered models of Panpipes are also included in the paper. Conclusions are derived.

Streszczenie Zaprezentowano falowodowy model Fletni Pana. W procesie opracowywania tego modelu przestudiowano zjawiska fizyczne zwiazane z powstawaniem dźwięku w tym instrumencie. W referacie przedstawiono dwa modele tego isntrumentu muzycznego, różniące się złożonością obliczeniową. Na podstawie wyników testów wykazano, że model uproszczony generuje dźwięki o podobnej jakości, jak model złożony. Wyniki i wnioski zawarto w treści referatu.

Pozycja nr 490

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Żwan

Tytuł polski Multimedialny System Wyszukiwania Informacji Muzycznej w Internecie

Konferencja Music Information Internet Browser System

Numer preprintu

Numer

Wolumin

Strony 127 - 134

Miejsce konferencji Gdańsk, Polska

Data konferencji 18.5.2003- 21.5.2002

Abstract The aim of the paper is to present the main assumptions of the music recognition system. The efficiency of the implemented pitch detection algorithm is presented and some results of experiments with musical instrument sounds are shown. Experiments are done by an Artificial Neural Network System.

Streszczenie Celem referatu jest przedstawienie założeń sieciowej implementacji multimedialnego systemu rozpoznawania informacji muzycznej. Przedyskutowana zostanie skuteczność zaimplementowanego algorytmu detekcji częstotliwości podstawowej dźwięków muzycznych. W referacie zostaną zawarte również wyniki eksperymentów związanych z badaniem wpływu opisu reprezentacji sygnałowej na skuteczność identyfikacji instrumentów muzycznych. Eksperymenty te są prowadzone w oparciu o system decyzyjny bazujący na sztucznych sieciach neuronowych.

Pozycja nr 491

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Deriving Rules for Mastering Surround Sound to Accompany Video

Tytuł polski Ekstrakcja reguł w dla potrzeb masteringu dźwięku dookólnego i video

Konferencja DAGA'02

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Bochum, Germany

Data konferencji 4.3.2002- 7.3.2002

Uwagi referat plakatowy

Abstract The methodology of testing influence of video image on surround sound perception developed by authors led to formulation of some principles of mastering multi-channel sound accompanying video content. The literature relates mostly to the classical studies on this subject including stereo sound systems for HDTV. At present, digital video, film or multimedia presentations are often accompanied by the surround sound. However, there is still no clear answer to the question: how the video influences the localization of virtual sound sources in multichannel surround systems (e.g. DTS) and in most references one can find a list of problems only to be solved while testing relevant inter-modal relations. Therefore, authors addressed in their studies similar problems employing subjective testing procedures in which experts listened to the sound with- and without video image presence and provided answers. Results of such experiments demonstrated in which cases and in what way video may affect the localization of virtual sound sources. The so called image proximity effect confirmed some dependencies between reactions of sight and hearing senses due to perception of visual stimuli accompanied by surrounding sound. The obtained data were then analyzed by means of modern techniques of intelligent data exploration and knowledge discovery allowing finding some hidden relations between semantic descriptors of subjective impressions. Finally, basing on the results of data analysis a set of rules concerning mastering of multichannel audio to accompany various types of video content were derived. Some results of this study will be presented and discussed in the paper.

Streszczenie W referacie sformułowano przykłady reguł dotyczących tworzenia dźwięku w systemie dookólnym towarzyszącemu obrazowi video. Reguły te tworzono w opraciu o wyniki testów subiektywnych.

Pozycja nr 492

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, M. Dziubiński, P. Żwan

Tytuł angielski Further developments of methods for searching optimum musical and rhythmic feature vectors

Tytuł polski Wyniki badań dotyczących optymalizacji opisu sygnałów muzycznych

Konferencja 21st Audio Eng. Soc. Conference, St. Petersburg

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji St. Petersburg, Russia

Data konferencji 1.6.2002- 3.6.2002

Abstract The aim of this paper is first to review recent developments in the domain of musical information retrieval and then to present some methods developed at the Sound and Vision Engineering Department of the Gdansk University of Technology, Poland. Especially important for music retrieval systems is to find optimum music representation. This is can be done using the so-called FED decomposition first. This algorithm is also used for musical duet separation. In this context the evaluation of the efficiency of the FED algorithm based on the ANNs is given. Results of the performed experiments are shown and conclusions are derived.

Streszczenie W referacie przedstawiono opracowane metody reprezentacji sygnału muzycznego. W tym celu zaproponowany został algorytm dekompozycji sygnałów FED. Algorytm ten został użyty do separacji duetów muzycznych. Odseparowane dźwięki zostały następnie poddane automatycznemu rozpoznaniu przy pomocy sztucznych sieci neuronowych.

Pozycja nr 493

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Fitting hearing aids employing fuzzy logic

Tytuł polski Dopasowanie protez słuchu z wykorzystaniem logiki rozmytej

Konferencja Proc. 6th IASTED Intern. Conference, Artificial Intelligence and Soft Computing

Numer preprintu

Numer

Wolumin

Strony 599 - 602

Miejsce konferencji Banff, Canada

Data konferencji 17.7.2002- 19.7.2002

Abstract The paper describes first limitations of the clinical hearing aid fitting process. The audiological assessment in this process is based both on classical methods that use as a basis results of the audiometric test and the loudness scaling method. These methods employ artificial test signals. However, the fitting of hearing aids should be also performed on the basis of testing speech understanding in noise, because this is much closer to the real life conditions. A satisfying reliability of these tests may be achieved through the use of modern computer technology with application of a properly calibrated sound system. A new strategy applicable to fitting prostheses was developed. It allows finding automatically characteristics of a hearing aid matching patients needs. The principles of the fitting method, and results of the experiments will be also presented in the paper.

Streszczenie W referacie przedstawiono nowa metodykę dopasowania aparatów słuchowych opartą na wykorzystaniu badania zrozumiałości mowy w szumie. Metodyka ta wykorzystuje logikę rozmytą w procesie skalowania poziomu głośności bodźców słuchowych.

Pozycja nr 494

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski, M. Dziubiński

Tytuł angielski Decomposition of Duet Instrument Sounds

Tytuł polski Dekompozycja duetów muzycznych

Konferencja ISMA'2002

Numer preprintu

Numer

Wolumin

Strony 292 - 301

Miejsce konferencji Meksyk, Meksyk

Data konferencji 9.12.2002- 13.12.2002

Abstract This paper shows first a review of recent developments in the domain of separation of musical instrument sounds and then presents some methods of this kind developed at the Sound and Vision Engineering Department of the Technical University of Gdansk,Poland. The proposed technique for the decomposition of duet sounds is based on the modified Frequency Envelope Distribution analysis (FED). Recently introduced Frequency Envelope Distribution (FED)algorithm decomposes signal into linear expansion of waveforms,called EMO – Envelope Modulated Oscillations providing a combination of complex exponential signals modulated by complex amplitude envelopes.These waveforms are chosen to best match harmonic parts of the signal,however non-harmonic structures can be also represented by EMO.The first step of the engineered algorithm is the estimation of the fundamental frequency of the lower pitched instrument.Pitch estimation is carried out in block processing.The input signal is divided into short overlapping blocks,and pitch is estimated for each block separately,resulting in Pitch Contour Signal (PCS). Then harmonics of the second sound are searched in the residual signal.Therefore in this approach based on the FED algorithm the multi-pitch detection is not needed.Results of the performed experiments are shown and conclusions are derived.

Streszczenie W referacie zaprezentowany został algorytm separacji nagrań duetów muzycznych. Metoda separacji oparta została na algorytmie FED, przy pomocy którego możliwa jest ekstrakcja części harmonicznych sygnałów. Ponadto wykorzystany został algorytm estymacji częstotliwości podstawowej oparty na korelacji skrośnej, w celu estymacji częstotliwości dekomponowanych harmonicznych.

Pozycja nr 495

Typ pozycji: referat konferencyjny

Autorzy H. Skarżyński, B. Kostek, A. Czyżewski, J. Kotus, K. Kochanek

Tytuł angielski A COMPUTER EXAMINE OF HEARING OF SMALL CHILDREN USING BEHAVIORAL AUDIOMETRY METHOD

Tytuł polski KOMPUTEROWE BADANIE SŁUCHU MAŁYCH DZIECI METODĄ AUDIOMETRII BEHAWIORALNEJ

Konferencja III KONGRES POLSKIEGO TOWARZYSTWA MEDYCYNY PERINATALNEJ

Numer preprintu

Numer

Wolumin

Strony 38

Miejsce konferencji Łódź, Polska

Data konferencji 27.9.2002

Abstract The software to examine hearing of small children using behavioral audiometry method was presented in the paper. It enable children diagnostic in age from 6 to 36 months. A common features of the program were presented. The testing conditions and the hardware requirements were described. A multichannel sound system applied in the program, make possible to verify capabilities of localization sound sources. A large variety of the testing signals from a child environment cause, that the software could be used in checking a progress in rehabilitation process. Moreover, it could be used in fixing a hearing aids. At the end of the examine it is possible to print a report witch include a result and a description of test conditions and the child and his parent personal data.

Streszczenie W referacie przedstawiono program komputerowy do badania słuchu małych dzieci metodą audiometrii behawioralnej. Umożliwia on badanie dzieci w wieku od 6 do 36 miesięcy. Przedstawiono podstawowe cechy programu, opisano warunki badania oraz wymagania sprzętowe. Zastosowanie w programie wielokanałowego systemu odsłuchu dźwięku umożliwia weryfikację zdolności w zakresie lokalizowania źródła dźwięku. Duża różnorodność sygnałów testowych z otoczenia dziecka sprawia, że program może być pomocny do kontroli postępów w procesie rehabilitacji. Ponadto, może znaleźć zastosowanie podczas dopasowywania protez słuchowych. Po zakończeniu badania istnieje możliwość wydrukowania raportu zawierającego wyniki badania, opis profilu testu oraz dane osobowe dziecka i opiekuna.

Pozycja nr 496

Typ pozycji: książka

Autorzy A. Czyżewski, B. Kostek, H. Skarżyński

Tytuł polski Technika komputerowa w audiologii, foniatrii i logopedii

Wydawca Akademicka Oficyna Wydawnicza EXIT

Strony 1 - 441

Rok 2002

Abstract Książka prezentuje opracowania, które są wynikiem kilkuletniej współpracy naukowaców z dziedziny informatyki, telekomunikacji, otolaryngologii, audiologii, psychologii, pedagogiki, logopedii i foniatrii. Książka prezentuje zastosowania techniki komputerowej w dziedzinach określonych w jej tytule.

Pozycja nr 497

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Recent developments in automatic classification of musical instruments

Tytuł polski Automatyczne rozpoznawanie muzyki - przykłady eksperymentów

Konferencja 144th Meeting of the Acoustical Society of America (First Pan-American/Iberian Meeting on Acoustics), J. Acoust. Soc. Am.

Numer preprintu

Numer 5

Wolumin 112

Strony 2238

Miejsce konferencji Cancun, Meksyk

Data konferencji 2.12.2002- 7.12.2002

Uwagi 1-7 str.

Abstract In this paper recent developments in automatic classification of musical instrument domain are presented. Issues related to automatic classification of music are data representation of musical instrument sounds, automatic musical sound recognition, musical duet separation, music recognition, etc. These problems belong to the so-called Musical Information Retrieval domain. The best developed is the automatic recognition of individual musical sounds. In rich literature on this subject many references can be found. Another issue deals with music information retrieval understood as searching for music-related features such as song titles, etc. A query-by-humming can be also cited as one of the MIR topics. The most difficult problem that deals with automatic recognition of multipitch excerpts still remains unsolved, however recently some approaches to this issue can be found in literature. Some of the mentioned problems were subjects of the research carried out at the Sound & Vision Department of the Gdansk University of Technology. The developed solutions in the domain of automatic classification of individual sounds, duet separation will be presented as examples of possible case-studies in the MIR domain. The proposed approach was evaluated on musical databases created at the Department.

Streszczenie W referacie dokonano przeglądu aktualnego stanu badań w dziedzinie automatycznego rozpoznawania muzyki. Przedstawiono też eksperymenth prowadzone aktualnie w Katedrze Dźwięku i Obrazu Politechniki Gdańskiej. Prace te dotyczyły rozpoznawnia klas instrumentów muzycznych i separacji duetów muzycznych. Pokazano przykładowe wyniki i przedstawiono projekt prac do zrealizowania w przyszłych eksperymentach.

Pozycja nr 498

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, J. Jaroszuk, B. Kostek

Tytuł angielski DIGITAL WAVEGUIDE MODELS OF THE PANPIPES

Tytuł polski Synteza falowodowa fletni Pana

Czasopismo Archives of Acoustics

Wolumin 27

Numer czasopisma 4

Strony 357 - 371

Rok 2002

Abstract The aim of this paper is to present a digital waveguide model of the Panpipes. For the efficient modelling of the Panpipes instrument its structure and its physics were studied and discussed. Principles of the digital waveguide modelling of woodwind instruments were also briefly reviewed. In the paper two digital waveguide models of Panpipes instruments differing from each other in their complexity were presented. Consequently it enabled studying the influence of the decreasing complexity of the model on the resulting synthetic sound quality. The subjective tests performed showed that the simplifications in digital waveguide models introduced reveal no noticeable influence on the sound quality. Comparison of synthetic and real Panpipes sounds was also made and conclusions reached.

Streszczenie W artykule przedstawiono główne cechy syntezy falowodowej. Omówiono cechy instrumentu fletni Pana. Przedyskutowano cechy zaproponowanych dwóch modeli fletni Pana różniących się złożonością obliczeniową. Pokazano szczegóły implementacyjne tych modeli, a także uzyskane wyniki symulacji dźwięków w modelach. Dokonano porównania dźwięków rzeczywistych i uzyskanych w wyniku syntezy falowodowej.

Pozycja nr 499

Typ pozycji: artykuł w czasopiśmie

Autorzy A. Czyżewski, B. Kostek

Tytuł angielski Expert Media Approach to Hearing Aids Fitting

Tytuł polski System ekspercki dopasowania protez słuchu

Czasopismo Int. Journ. of Intelligent Systems

Wolumin 17

Numer czasopisma

Strony 277 - 294

Rok 2002

Abstract The engineered Multimedia Hearing Aid Fitting Expert System is the experimental software that allows to find the characteristics of a hearing aid matching patients needs and to choose automatically a suitable hearing device characteristics. The key issues related to the engineered application are based on the expert system implementation. This expert system uses both fuzzy logic and rough set processing of analytical data. The principles of the engineered expert media application, some details of the rough set and fuzzy logic implementation will be presented in the paper.

Streszczenie W artykule zaprezentowano problematyke dopasowania protez słuchu. Przedstawiono system ekspercki, ktory pozwala na znalezienie charakterystyk aparatu słuchowego adekwatnego do uszkodzenia słuchu. System został oparty o metodę zbiorów przybliżonych i logikę rozmytą.

Pozycja nr 500

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski “Computing with words” concept applied to musical instrument recognition

Tytuł polski Automatyczne rozponawanie klas instrumentów muzycznych w oparciu o wyrażenia opisujące barwę dźwięku

Konferencja IMSA'2002

Numer preprintu

Numer

Wolumin

Strony 72 - 79

Miejsce konferencji Meksyk, Meksyk

Data konferencji 9.12.2002- 13.12.2002

Uwagi referat na zaproszenie

Abstract “Computing with words” concept, introduced recently by Zadeh, can be used with success in musical acoustics by offering better processing of subjective descriptors of musical instrument sounds and enabling the analysis of data that would result in a new way of describing musical instrument sounds. The aim of this paper is to show that well known paradigm in the computer world can be applied to musical acoustics. This paper shows first a review of developments in the domain of timbre mapping and classification. A concept of a system processing timbre using fuzzy notions is shown. Relationships between subjective descriptors and objectively measured sound characteristics are discussed. Conclusions are also derived.

Streszczenie W referacie przedstawiono nowy sposób autmatycznego przetwarzania danych muzycznych w oparciu o paradygmat zaproponowany przez L. Zadeha. Pozwala to na automatyczne rozponawanie klas instrumentów muzycznych wykorzystując opis słowny barwy dźwięku. Przedstawiono system realizujący automatyczną klasyfikację instrumentów muzycznych oparty o metodę zbiorów przybliżonych i logikę rozmytą.

Pozycja nr 501

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Żwan, M. Dziubiński

Tytuł angielski Statistical Analysis of Musical Sound Features Derived from Wavelet Representation

Tytuł polski Statystyczna analiza dźwięków instrumentów muzycznych w oparciu o Transformację Falkową

Konferencja 112th Audio Eng. Soc. Convention

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Monachium, Niemcy

Data konferencji 10.5.2002- 13.5.2002

Abstract The presented study is aimed to extract parameters from musical sounds that can be useful in the musical sound recognition process. For this purpose time-frequency transform analysis employing various filters is performed on musical sounds representing twelve instrument classes. Three groups of instruments are taken into account, namely: wind, string and percussive. Examples of wavelet analyses of various musical instrument sounds are presented. On this basis a number of parameters was extracted and statistically analyzed. Parameters that are correlated are removed from the feature vector. In this way a number of parameters in the feature vector can be diminished from dozens to a few most important ones. Furthermore originally developed Frequency Envelope Distribution method was applied to divide musical signal into harmonic and inharmonic content. Those signals were also parameterized and recognition results are presented. The derived conclusions are also included in the paper.

Streszczenie W referacie zaprezentowano wybrane falkowe parametry dźwięku muzycznego. Do analiz wybrano dźwięki 12 instrumentów muzycznych przy różnych artykulacjach. Zaprezentowano wyniki analiz statystycznych i dyskusję dotyczącą opisu dźwięku muzycznego przy pomocy wektora parametrów o minimalnej długości. Do porównania parametrów posłużyły metody statystyczne. W dalszej części przedstawiono metodę FED, dzięki której dokonano dekompozycji sygnału muzycznego na części harmoniczną i nieharmoniczną. Oba sygnały uzyskanego podziału zostały poddane przedstawionym wcześniej algorytmom rozpoznawania. Referat kończy dyskusja otrzymanych wyników.

Pozycja nr 502

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Żwan

Tytuł angielski AUTOMATIC CLASSIFICATION OF MUSICAL INSTRUMENTS SOUNDS BASED ON WAVELETS AND NEURAL NETWORKS

Tytuł polski Automatyczna klasyfikacja instrumentów muzycznych z wykorzystaniem analizy falkowej i sztucznych sieci neauronowych

Konferencja Proc. 6th IASTED Intern. Conf., Artificial Intelligence and Soft Computing

Numer preprintu

Numer

Wolumin

Strony 407 - 412

Miejsce konferencji Banff, Calgary, Canada

Data konferencji 17.7.2002- 19.7.2002

Abstract In this paper a study on the classification of musical instruments by means of the wavelet analysis and artificial neural networks is shown. A short discussion on pitch detection methods of musical sounds is presented. Then, some details of the engineered pitch detection method are shown. Several analyses exemplifying problems related to automatic pitch tracking process are included. Principles of the wavelet-based parameterization of musical instrument sounds are presented and a set of parameters resulting from the parametrization process is shown. Artificial neural networks are used for classification purposes. Exemplary results obtained in the carried out investigations are provided and analyzed.

Streszczenie W referacie przedstawiono wyniki eksperymentów dotyczące automatycznej klasyfikacji instrumentów muzycznych w oparciu o sztuczne sieci neuronowe. Opisano dyskusję na temat parametrów zawartych w wektorze cech dźwięków instrumentów muzycznych. Podano wyniki analiz i wnioski.

Pozycja nr 503

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, R.O Neubauer

Tytuł angielski Reverberation Condition Evaluation for Rectangular Rooms with Non-Uniformly Distributed Sound Absorption

Tytuł polski Predykcja czasu pogłosu w salach o nierównomiernej chłonności akustycznej

Konferencja DAGA'2002

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Bochum, Germany

Data konferencji 4.3.2002- 7.3.2002

Abstract Conditions of non-uniformly distributed absorption are encountered in prevailing number of hall design projects, especially when considering the presence of audience. A survey on modeling reverberation conditions in rectangular rooms with non-uniformly distributed absorption is presently conducted in many research centers. The aim of this paper is to compare prediction results obtained for various reverberation time formulae, including both classical ones and those worked on within the CEN standardization framework. In addition, the results obtained by measuring reverberation time in situ and those predicted for the same enclosure are compared. For the purpose of modeling reverberation conditions the CATT-Acoustic program is used. Listening tests enabling to assess reverberation conditions subjectively are performed based on impulse responses of modeled rooms computed with the auralization module of the CATT-Acoustic program. For this purpose a number of sound excerpts recorded in an anechoic chamber are used. Experts’ preferences as to modeled reverberation conditions are illustrated in charts. Conclusions are also drawn and included.

Streszczenie W referacie przedstawiono problemy związane ze znalezieniem formuły na obliczanie czasu pogłosu, która pozwalałaby na uzyskiwanie wartości czasu pogłosu zgodnych z pomiarowymi w przypadkach nierównomiernej chłonności akustycznej. Pokazano wyniki uzyskane dla różnych konfiguracji chłonności akustycznej występującej w salach prostopadłościennych dla dużego zakresu objętości. Przedstawione zostały wnioski dotyczące wprowadzenia nowej formuły do obliczeń czasu pogłosu, która pozwala na lepszą zgodność z wynikami pomiarów.

Pozycja nr 504

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, M. Szczerba, B. Kostek

Tytuł angielski Pitch Estimation Assisted by the Neural Network-Based Prediction Algorithm

Tytuł polski Estymacja częstotliwości podstawowej z wykorzystaniem predykcji neuronowej

Konferencja ISMA'2002

Numer preprintu

Numer

Wolumin

Strony 246 - 255

Miejsce konferencji Meksyk, Meksyk

Data konferencji 9.12.2002- 13.12.2002

Abstract In this paper recent developments in pitch estimation methods enhancement were presented. This issue is well-developed within signal processing domain. However, because processed signal often contains noise and distortions, the estimation results may be erroneous. First, a brief review of such methods is shown. The developed method was introduced in order to diminish processing errors of the known pitch estimation algorithms. The proposed approach is two-fold. Both pitch estimation in terms of signal processing and pitch prediction based on neural networks are employed. First, signal is partitioned into segments roughly analogous to consecutive notes. Then, for each segment the autocorrelation function is calculated. Autocorrelation function values are then processed using pitch predictor output. A music predictor based on artificial neural networks was introduced for this task. The description of the proposed pitch estimation enhancement method is included and some details concerning music prediction are discussed in the paper.

Streszczenie W referacie zawarto przegląd metod estymacji częstotliwości podstawowej we frazach muzycznych. W celu zmniejszenia błędów oktawowych w procesie estymacji częstotliwości podstawowej dźwięków zaproponowano uwzględnienie w systemie predyktora neuronalnego. Pokazano skuteczność estymacji częstotliwości podstawowej w zaproponowanym systemie i podano wnioski.

Pozycja nr 505

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, A. Kornacki, P. Odya, M. Dziubiński

Tytuł angielski Comparing some convolution-based methods for creation of surround sound

Tytuł polski System nagrań dźwięku dookólnego z wykorzystaniem splotu odpowiedzi impulsowej sali

Konferencja 144th Meeting of the Acoustical Society of America (First Pan-American/Iberian Meeting on Acoustics), J. Acoust. Soc. Am.

Numer preprintu

Numer 5

Wolumin 112

Strony 2274

Miejsce konferencji Cancun, Meksyk

Data konferencji 2.12.2002- 7.12.2002

Uwagi 1-7

Abstract Spatialization of the sound using the multichannel techniques is now getting widespread. One can derive many rules for surround sound recording and reproduction. However, there exists only few methods suitable for recording sound in large auditoria ensuring its proper subsequent reproduction in small reproduction rooms, preserving spatial properties of sound acquired in the original recording location. Some experiments presented in the paper were devoted to simulation of acoustics of the recording hall using the convolution of monophonic audio signal with the multichannel impulse response of the hall. A special microphone setup was created to that end and an original method of recording multichannel impulse response of auditory halls was conceived and implemented. In this method the acoustical signal recorded quasi-anechoically was convolved with 5 impulse responses of the simulated room measured in the room corners and at the stage position. The firecracker shots used for impulse response recording were equalized during the subsequent recorded signal processing. Surround recordings made with above mentioned convolution techniques were then compared each to others on the basis of subjective testing results. The details of the examined surround recording methods and results of their assessments will be discussed in the paper.

Streszczenie W referacie przedstawiono eksperymenty związane z symulacją dźwięku dookólnego w sali koncertowej. W tym celu wykorzystywano splot odpowiedzi impulsowej z danego wnętrza (wielokanałowe nagrania odpowiedzi impulsowej) z nagraniami z komory bezechowej. Uzyskany w ten sposób sygnał został następnie przypisany do odpowiednich kanałów w systemie dookólnym. Uzyskane w ten sposób nagrania były następnie porównywane w testach subiektywnych z nagraniami pochodzącymi z innych systemów dookólnych.

Pozycja nr 506

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Odya

Tytuł angielski Making Surround Audio Considering Image Proximity Effect

Tytuł polski Tworzenie dźwięku przestrzennego z uwzględnieniem wpływu ściągającego obrazu na dźwięk

Konferencja 112th AES Convention

Numer preprintu 5583

Numer

Wolumin

Strony

Miejsce konferencji Munich, Germany

Data konferencji 10.5.2002- 13.5.2002

Abstract The problem of influencing surround sound perception by video content was addressed employing subjective testing procedures in which experts listened to the sound with- and without video image presence and provided their answers. Results of experiments demonstrated in which cases and how video may affect the localization of virtual sound sources. The obtained data were then analyzed by means of modern techniques of intelligent data exploration and knowledge discovery allowing finding some hidden relations between semantic descriptors of subjective impressions. Finally, basing on the results of data analysis a set of rules concerning mastering of multichannel audio to accompany various types of video content were derived. Some results of this study will be presented and discussed in the paper.

Streszczenie Problem wpływu obrazu na dźwięk badany jest z wykorzystaniem subiektywnych testów odsłuchowych. Uzyskane wyniki analizowane są z wykorzystaniem algorytmów sztucznej inteligencji. Na podstawie uzyskanych analiz uzyskano reguły dotyczące zasad tworzenia dźwięku wielokanłowego towarzyszącego różnym typom obrazu.

Pozycja nr 507

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Automatic Recognition of Musical Instrument Sounds

Tytuł polski Rozpoznawanie dźwięków instrumentów mzuycznych

Konferencja ICA'2001

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Rome, Italy

Data konferencji 2.9.2001- 7.9.2001

Abstract The presented study aims at the possibility of automatic identification of musical instruments based on signal processing and some intelligent decision techniques. This study points out at automatic retrieval of musical sounds from Internet databases. Several stages should be performed before the actual recognition process takes place. Especially important is to find adequate descriptors of musical sounds. Appropriate sound parameters are to be used for feeding inputs of decision algorithms. They should be well related to sound characteristics, both objectively measured and subjectively perceived. Proposed feature vectors are derived on the basis of thorough examination of sound analysis results. Parameters are looked for in the frequency and time-frequency domains. A discussion concerning the choice of parameters that might be contained in the feature vectors is also included. An expert system based on some classification methods, both classical and soft computing ones is used for automatic classification purposes. Exemplary results obtained in experiments and derived conclusions are included in the paper.

Streszczenie W referacie przedstawiono system ekspercki do automatycznego rozpoznawania dźwięków instrumentów muzycznych. Przedyskutowano kolejne fazy procesu klasyfikacji. W szczególności skupiono się na problemach związanych z parametryzacją dźwięków muzycznych różnych instrumentów muzycznych. Opisano wyniki eksperymentów.

Pozycja nr 508

Typ pozycji: referat konferencyjny

Autorzy G. Szwoch, B. Kostek

Tytuł angielski Comparison of transfer functions of acoustical elements of hearing aid and their computer models

Tytuł polski Badania porównawcze charakterystyk akustycznych elementów aparatów słuchowych i ich modeli komputerowych

Konferencja XLVIII Otwarte Seminarium z Akustyki

Numer preprintu

Numer

Wolumin

Strony 515 - 520

Miejsce konferencji Wrocław - Polanica Zdrój, Polska

Data konferencji 11.9.2001- 14.9.2001

Abstract The aim of the experiments is to compute and plot transfer functions of the computer waveguide model of the acoustical system of a hearing aid. The results of simulations performed employing various sets of model parameters are compared with each other, as well as with measurement data of corresponding physical elements. Accuracy of the model used in the experiments is discussed. The aim of the study is to design computer system which can be useful in hearing aid fitting process, enabling one to design the acoustical system having a desired transfer function.

Streszczenie Istotnym elementem procesu doboru aparatu słuchowego typu zausznego jest wybranie właściwej konfiguracji układu akustycznego, składającego się z wkładki usznej, przewodu łączącego oraz rożka (zaczepy). Ponieważ proces ten jest czasochłonny i często męczący dla użytkownika aparatu, słuszne wydaje się zaproponowanie metody symulacji komputerowej jako pomocnej w tej procedurze. Modelowanie układów akustycznych aparatów słuchowych jest zagadnieniem skomplikowanym. Dotychczas stosowane metody modelowania oparte były głównie na analogiach akusto-elektrycznych i charakteryzowały się dużą złożonością obliczeniową. W omawianych badaniach zaproponowano odmienne podejście, wykorzystujące model falowodowy układu. Zaletą tej metody jest jej duża dokładność oraz łatwość implementacji. W niniejszym referacie podjęto próbę określenia wpływu parametrów modelu, związanych z fizycznymi właściwościami symulowanego układu, na jego charakterystyki. Przedstawiono dyskusję dotyczącą modelowania charakterystyk falowodów o różnych długościach i średnicach. W celu określenia dokładności przeprowadzonych symulacji, otrzymane wyniki porównywane były z charakterystykami rzeczywistych elementów akustycznych aparatu słuchowego o analogicznych parametrach. Przeprowadzono dyskusję uzyskanych wyników oraz możliwych przyczyn rozbieżności pomiędzy charakterystykami rzeczywistymi a otrzymanymi w wyniku symulacji.

Pozycja nr 509

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek

Tytuł angielski Hearing Dynamic Examination Employing a PC Computer

Tytuł polski BADANIE DYNAMIKI SLUCHU PRZY WYKORZYSTANIU KOMPUTERA PC

Konferencja OSA 2001

Numer preprintu

Numer

Wolumin

Strony 103 - 109

Miejsce konferencji Wrocław - Polanica, Polska

Data konferencji 11.9.2001- 11.9.2001

Abstract Most hearing aid fitting systems are based on a loudness scaling test, the results of which represent hearing dynamic characteristic. The hearing dynamic characteristics are the start point for obtaining optimum dynamic characteristic of a desired hearing aid. Typically, an access to the professional loudness scaling equipment in an audiology centre is not often easy, on the other hand features of modern multimedia computer allow implementing complex audiology tools. This paper presents results of a comparison between characteristics obtained employing professional loudness scaling equipment (ReSound P3) and the elaborated Hearing Dynamic Computer Tester.

Streszczenie W większości systemów dopasowania protez słuchu punktem wyjściowym do otrzymania optymalnej charakterystyki poszukiwanej protezy słuchu jest wyznaczenie charaketrystyki dynamiki uszkodzonego słuchu. Dynamikę słuchu można wyznaczyć na podstawie wyników testu skalowania głośności. Niestety dostęp do profesjonalnego sprzętu audiologicznego często nie jest łatwy, jednak współczesne komputery pozwalają na programową implementację większości narzędzi audiologicznych, a tym samym na ich upowszechnienie. Ten artykuł przedstawia porównanie wyników skalowania głośności dokonanego w oparciu o profesjonalny sprzęt (ReSound P3) i opracowany program komputerowy (Komputerowy Tester Dynamiki Słuchu)

Pozycja nr 510

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, R. Neubauer

Tytuł angielski Modeling of the reverberation conditions in rectangular rooms with non-uniformly distributed sound absorption

Tytuł polski Modelowanie warunków pogłosowych w pomieszczeniach prostopadłościennych o nierównomiernie rozłożonej chłonności akustycznej

Konferencja IX Sympozjum Reżyserii i Inżynierii Dźwięku ISSET 2001

Numer preprintu

Numer

Wolumin

Strony 102 - 111

Miejsce konferencji Warszawa,

Data konferencji 18.10.2001- 20.10.2001

Abstract The problem of the reverberation time prediction for non-uniform distribution, remains so far, open for discussion and for finding solutions fitted better to practical applications. The aim of this paper is to compare prediction results obtained for various reverberation time formulae. In addition, the results obtained by measuring reverberation time in situ and those predicted for the same enclosure are compared. For the purpose of modeling reverberation conditions the CATT-Acoustic program is used. Conclusions are also drawn and included.

Streszczenie Problem określania czasu pogłosu w warunkach nierównomiernie rozłożonej chłonności akustycznej pozostaje wciąż przedmiotem badań. Celem referatu jest porównanie wyników otrzymanych przy użyciu różnych wzorów określających czas pogłosu. Dodatkowo dokonano porównania wyników pomiarowych wybranej sali z wynikami otrzymanymi dla modelu tego pomieszczenia. Dla celów modelowania warunków pogłosowych wykorzystany został program CATT-Acoustic. W referacie zwarto również dyskusję otrzymanych wyników.

Pozycja nr 511

Typ pozycji: referat konferencyjny

Autorzy P. Odya, A. Czyżewski, B. Kostek, T. Smolinski

Tytuł angielski Determining the influence of visual stimuli on the peception of surround sound using data mining algorithms

Tytuł polski Badanie wpływu obrazu na dźwięk w systemach dookólnych z wykorzystaniem algorytmów sztucznej inteligencji

Konferencja 142nd Meeting of the Acoustical Society of America, J. Acoust. Soc. Amer.

Numer preprintu 2pPP3

Numer 5

Wolumin 110

Strony 2679

Miejsce konferencji Fort Lauderdale, USA

Data konferencji 3.12.2001- 7.12.2001

Abstract A short description of experiments that aim to determine visual cues influence on the perception of spatial sound is provided in the paper. The earlier stage of the carried out experiments showed that there exists a relationship between the perception of video presented in the screen and sound signals reproduced in a surround system. However, this relationship is dependent on the type of audio–visual signals. Thus a series of subjective tests has been performed on dozens of experts in order to discover these dependencies. The main issue in such experiments is the analysis of the influence of visual cues on the perception of the surround sound. This problem is solved with the application of genetic algorithm and rule searching mechanism to the processing of subjective test results. Some results and conclusions concerning the complexity of the investigated problem are included.

Streszczenie Niniejszy referat zawiera krótki opis eksperymentów, które miały na celu wykazanie wpływu obrazu na postrzeganie dźwięku przestrzennego. Wcześniejsze eksperymenty wykazały bowiem istnienie zależności pomiędzy obrazem i dźwiękiem w systemie dźwięku dookólnego. Niemniej jednak związek ten zależy od rodzaju sygnałów audio-wizyjnych. Wykonano serię subiektywnych eksperymentów na wielu ekspertach w celu zbadania tych zależności. Podstawowym problemem tego typu eksperymentach jest analiza uzyskanych wyników. Problem ten rozwiązano z wykorzystaniem algorytmów genetycznych. Artykuł zawiera także wyniki eksperymentów i wnioski dotyczące złożoności badanego problemu.

Pozycja nr 512

Typ pozycji: referat konferencyjny

Autorzy P. Suchomski, B. Kostek

Tytuł angielski Computer Simulation And Correction of Hearing Impairment

Tytuł polski Komputerowy symulator i korektor ubytku słuchu

Konferencja IX Sympozjum Reżyserii i Inżynierii Dźwięku ISSET 2001

Numer preprintu

Numer

Wolumin

Strony 293 - 300

Miejsce konferencji Warszawa, Polska

Data konferencji 18.10.2001- 20.10.2001

Abstract The approximate hearing impairment simulation can help for understanding how hearing impaired person hears. It’s very useful for improving communication between the hearing impaired person and other people, especially like family, teachers or employee. For hearing impaired people more important is possibility to simulate desired hearing aid. Nowdays fast multimedia computers are able to do both kind of the simulation. Approximate simulation algorithms of hearing impairment and hearing aid will be presented in this paper.

Streszczenie Przybliżona symulacja ubytku słuchu pozwala zrozumieć jak słyszą osoby z ubytkiem słuchu, a tym samym pozwoli poprawić komunikację osób niedosłyszących z osobami o słuchu normalnym, zwłaszcza rodziną, przyjaciółmi i nauczycielami. Dla osób słabosłyszących większe znaczenie ma możliwość przeprowadzenia przybliżonej symulacji poszukiwanej protezy słuchu. Współczesne komputery pozwalają na przeprowadzenie obu typów symulacji, których algorytmy zostaną przedstawione w niniejszym artykule.

Pozycja nr 513

Typ pozycji: referat konferencyjny

Autorzy P. Odya, A. Czyżewski, B. Kostek

Tytuł angielski Determination of Influence of Visual Cues on Perception of Spatial Sound

Tytuł polski Badanie wpływu obrazu na percpecję dźwięku dookólnego

Konferencja 110th Audio Eng. Soc. Conv.

Numer preprintu 5311

Numer

Wolumin

Strony

Miejsce konferencji Amsterdam, Netherlands

Data konferencji 12.5.2001- 15.5.2001

Abstract The paper contains a description of experiments that aim to determine visual cue influence on the perception of spatial sound. Earlier stage of the carried out experiments showed that there exists a relationship between the perception of video presented in the screen and sound signals reproduced in a surround system. However, this relationship is dependent on the type of audio-visual signals. Thus a series of subjective test has been performed on dozens of experts in order to discover these dependencies. The main issue in such experiments is the analysis of the influence of visual cues on the perception of the surround sound. Conclusions concerning the complexity of the investigated problem are included.

Streszczenie Niniejszy artykuł zawiera opis eksperymentów, które miały na celu wykazanie wpływu obrazu na postrzeganie dźwięku przestrzennego. Wcześniejsze eksperymenty wykazały bowiem istnienie zależności pomiędzy obrazem i dźwiękiem w systemie dźwięku dookólnego. Niemniej jednak związek ten zależy od rodzaju sygnałów audio-wizyjnych. Wykonano serię subiektywnych eksperymentów na wielu ekspertach w celu zbadania tych zależności. Podstawowym problemem tego typu eksperymentach jest analiza uzyskanych wyników. Artykuł zawiera także wnioski dotyczące złożoności badanego problemu.

Pozycja nr 514

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, R. Królikowski, B. Kostek

Tytuł angielski Encoding Spatial Information for Advanced Teleconferencing

Tytuł polski Kodowanie informacji przestrzennej dla potrzeb zaawansowanej telekonferencji

Konferencja 19th International AES Conference

Numer preprintu

Numer

Wolumin

Strony 309 - 322

Miejsce konferencji Schloss Elmau, Germany

Data konferencji 21.6.2001- 24.6.2001

Abstract The aim of this paper is to show a system that enables automatic identification of a sound source position in noisy acoustical conditions with a considerable accuracy. Automatic detection of sound source in such an acoustical environment is much needed in advanced teleconferencing. The approach shown in the paper is based on Artificial Neural Networks (ANNs) used for automatic sound localisation. Both standard feed-forward ANNs and Recurrent Neural Networks (RNNs) are employed for that purpose. Comparison of the results obtained, based on both types of ANNs, is also given. Conclusions are derived and shown.

Streszczenie W referacie pokazano system umożliwiający automatyczną identyfikację pozycji źródła dźwięku w zaszumionych akustycznych warunkach, co jest pożądane w przypadku telekonferencji. Opracowane rozwiązania bazują na sztucznych sieciach neuronowych, zarówno jednokierunkowych jak i rekurencyjnych. W referacie zamieszczono porównanie obu podejść oraz wnioski.

Pozycja nr 515

Typ pozycji: artykuł w czasopiśmie

Autorzy G. Szwoch, B. Kostek, A. Czyżewski

Tytuł angielski Computer Modeling of Acoustical Elements of a Hearing Aid

Tytuł polski Komputerowe modelowanie akustycznych elementów aparatów słuchowych

Czasopismo Archives of Acoustics

Wolumin 26

Numer czasopisma 3

Strony 203 - 213

Rok 2001

Abstract In this paper, application of computer modeling methods to the process of hearing aid fitting is described. A computer model of the acoustical system of a hearing aid is presented. Exemplary results of the experiments are presented and compared with measurement data. The model proved to behave similarly to the physical system. Further improvements to the model are discussed.

Streszczenie W artykule opisano wykorzystanie metod modelowania komputerowego w procesie doboru aparatu słuchowego. Przedstawiono komputerowy model akustycznego układu aparatu słuchowego. Zamieszczono wyniki przykładowych eksperymentów i porównano te wyniki z danymi pomiarowymi. Wpływ zmian parametrów na charakterystyki modelu był podobny jak w przypadku rzeczywistego systemu. Przeprowadzono dyskusję koniecznych rozszerzeń modelu.

Pozycja nr 516

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, P. Odya, T. Smoliński

Tytuł angielski Discovering the Influence of Visual Stimuli on The Perception of Surround Sound Using Genetic Algorithms

Tytuł polski Badanie wpływu obrazu na percepcję dźwięku dookólnego z wykorzystaniem algorytmów genetycznych

Konferencja 19th International AES Conference

Numer preprintu

Numer

Wolumin

Strony 287 - 294

Miejsce konferencji Schloss Elmau, Germany

Data konferencji 21.6.2001- 24.6.2001

Abstract The paper contains a description of experiments that aim to determine visual cue influence on the perception of spatial sound. Earlier stage of the carried out experiments showed that there exists a relationship between the perception of video presented in the screen and sound signals reproduced in a surround system. However, this relationship is dependent on the type of audio-visual signals. Thus a series of subjective tests has been performed on dozens of experts in order to discover these dependencies. The main issue in such experiments is the analysis of the influence of visual cues on the perception of the surround sound. This problem is solved with the application of genetic algorithms to the processing of subjective test results. Conclusions concerning the complexity of the investigated problem are included.

Streszczenie Niniejszy artykuł zawiera opis eksperymentów, które miały na celu wykazanie wpływu obrazu na postrzeganie dźwięku przestrzennego. Wcześniejsze eksperymenty wykazały bowiem istnienie zależności pomiędzy obrazem i dźwiękiem w systemie dźwięku dookólnego. Niemniej jednak związek ten zależy od rodzaju sygnałów audio-wizyjnych. Wykonano serię subiektywnych eksperymentów na wielu ekspertach w celu zbadania tych zależności. Podstawowym problemem tego typu eksperymentach jest analiza uzyskanych wyników. Problem ten rozwiązano z wykorzystaniem algorytmów genetycznych. Artykuł zawiera także wnioski dotyczące złożoności badanego problemu.

Pozycja nr 517

Typ pozycji: referat konferencyjny

Autorzy A. Kornacki, B. Kostek, P. Odya, A. Czyżewski

Tytuł angielski Problems Related to Surround Sound Production

Tytuł polski Problemy realizacji dźwięku w systemach dookólnych

Konferencja 110th AES Convention

Numer preprintu 5374

Numer

Wolumin

Strony

Miejsce konferencji Amsterdam, Netherlands

Data konferencji 12.5.2001- 15.5.2001

Abstract The problem of production of recordings designated for sound surround systems becomes a vital problem in sound technology. Existing standards of surround systems allow for reproduction of spatial sound. However, there are no consistent recommendations as to which microphone and mixing technique could be used in specific situations. For the purpose of research presented in this paper several microphone techniques were used for recordings of a quartet playing classical music. The mixing results in two-channel excerpts and several multichannel ones designated for 5.1 reproduction system. Then, in order to find the most preferable recording technique these excerpts were used in subjective tests.

Streszczenie Współczesne media zapisu dźwięku pozwalają na rejestrację i odtwarzanie dźwięku w wielokanałowych formatach dookólnych, np. w formacie 5.1. Możliwości te wymagają jednak opracowania odpowiednich metod realizatorskich. Dotyczy to zarówno technik mikrofonowych, jak również sposobu tworzenia panoramy dźwiękowej. W pracy przedstawiono porównanie kilku metod realizacji nagrań dookólnych.

Pozycja nr 518

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Multimedia Techniques Applied to Health Care Procedures- Hearing Aid Fitting expert System

Tytuł polski Wykorzystanie technik multimedialnych w medycynie - System doboru aparatów słuchowych

Konferencja 46 Internationales Wissenschaftliches Kolloquium

Numer preprintu

Numer

Wolumin

Strony 85 - 87

Miejsce konferencji Ilmenau, Germany

Data konferencji 24.9.2001- 27.9.2001

Abstract In this paper an exemplary implementation of the complex multimedia system in the domain of the health care and its integration to the user environment is shown. The engineered Multimedia Hearing Aid Fitting Expert System is an experimental software program that allows finding automatically characteristics of a hearing aid matching patients needs. The fitting of the hearing aids is based either on classical methods that use audiometric test results or on loudness scaling principles. All these methods are based on artificial test signals. However, the fitting of hearing aids should be performed on the basis of testing speech understanding in noise. A satisfying reliability of these tests may be achieved through the use of modern computer technology, properly calibrated. The principles of the engineered software application, some details of the calibration process, and results of the experiments will be presented in the paper.

Streszczenie Celem referatu jest przedstawienie multimedialnego systemu wspomagającego dobór protez słuchowych. Aplikacja ta umożliwia automatyczne określanie optymalnych dla pacjenta charakterystyk protez słuchowych. Proces dopasowywania oparty na klasycznych metodach audiometrycznych lub zasadach skalowania głośności wykorzystuje generowane sygnały testowe. Dobór protezy słuchowej powinien być jednak oparty na teście rozumienia mowy w szumie. Wierność takiego testu może zostać osiągnięta dzięki użyciu współczesnej techniki komputerowej przy odpowiedniej kalibracji interfejsu użytkownika. W referacie przedstawiono opis zaimplementowanego systemu, zasadę jego kalibracji oraz uzyskane wyniki.

Pozycja nr 519

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, J. Jaroszuk, B. Kostek

Tytuł angielski Digital Waveguide Models of the Panpipes

Tytuł polski Model fizyczny fletni Pana

Konferencja ISMA’2001

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Perugia, Italy

Data konferencji 9.2001- 9.2001

Abstract The principal aim of this paper is to present a digital waveguide model of the Panpipes. For the efficient modeling of the Panpipes instrument its structure and its physics were studied and thoroughly discussed. The acquired knowledge was then used during the construction of the model. In this context principles of the digital waveguide modeling of woodwind instruments are shortly reviewed. Because of the simplicity of designing the digital waveguide as a set of delay lines and scattering junctions the model can be easily implemented to a digital signal processor. In the paper two digital waveguide models of the Panpipes instruments were presented. They differ from each other by their complexity. This was due to examining the influence of decreasing the complexity of the model on the synthetic sound quality. The performed subjective tests resulted in showing that introduced simplifications in digital waveguide models reveal no noticeable influence on the sound quality. A comparison between synthetic and real Panpipes sounds was made. The results of both subjective tests and objective analyses obtained using engineered models of Panpipes are also included in the paper. Conclusions are derived.

Streszczenie Celem referatu jest przybliżenie zagadnień związanych z modelowaniem fizycznym wybranych instrumentów dętych. W referacie przedstawiono dwa modele fizyczne fletni Pana, różniące się stopniem skomplikowania i jakością otrzymanego dźwięku syntetycznego. Dokonano wszechstronnych analiz dźwięków otrzymanych w modelach i porównano je z dźwiękiem naturalnym. Dodatkowo przeprowadzono serię testów subiektywnych, które potwierdziły, że skonstruowane modele pozwalają na otrzymanie dźwięku zbliżonego do dźwięku naturalnego fletni Pana.

Pozycja nr 520

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Management of Musical Data

Tytuł polski Multimedialne bazy muzyczne

Konferencja International Workshop: Human Supervision and Control in Engineering and Music

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Stadthalle Kassel, Germany

Data konferencji 21.9.2001- 24.9.2001

Abstract In this overview some concepts concerning future perspectives of transdisciplinary research will be presented. There are many problems related to the management of musical data that are not solved up to now. These problems are being extensively developed within the Music Information Retrieval field now. Topics that should be addressed within the scope of this discussion, but not limited to, are as follows: the problem of automatically classifying musical instrument sounds and musical phrases/styles, music representation and indexing, estimating similarity of music using both perceptual and musical criteria, problems of recognizing music using audio or semantic description, building up musical databases, evaluation of MIR systems, intellectual property right issues, user interfaces, issues related to musical styles and genres, language modeling for music, user needs and expectations, auditory scene analysis, gesture control over musical work, etc. Some of these topic are covered by the MPEG 7 standardization process, which describe the multimedia content data that will support some degree of interpretation of the information meaning, “which can be passed onto, or accessed by, a device or a computer code (MPEG-7)

Streszczenie W artykule zaprezentowano aktualny stan wiedzy związanej z wyszukiwaniem obiektów dźwiękowych w multimedialnych bazach muzycznych. Wiele problemów związanych z tym zagadnieniem nie zostało jeszcze rozwiązanych. Należą do nich problem automatycznej klasyfikacji instrumentów muzycznych i fraz muzycznych, zagadnienie opisu obiektów multimedialnych, estymacja podobieństwa obiektów muzycznych przy użyciu kryteriów perceptualnych i muzycznych, problem konstrukcji baz danych multimedialnych, rozwój systemów MIR, rozwiązanie problemu praw autorskich, rozwój interfejsów użytkownika, wyodrębnienie pewnych stylów charakterystycznych dla danych stylów muzycznych etc. Niektóre z tych zagadnień są związane z rozwijającym się standardem MPEG-7 i MPEG-21, który do opisu danych muzycznych wykorzystuje ekstrahowane parametry dźwięku muzycznego.

Pozycja nr 521

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Employing Fuzzy Logic and Noisy Speech for Automatic Fitting of Hearing Aids

Tytuł polski System doboru protez oparty o wnioskowanie rozmyte

Konferencja 142nd Acoustical Soc. of America Meeting, , J. Acoust. Soc. Amer.

Numer preprintu

Numer 5

Wolumin 110

Strony

Miejsce konferencji Fort Lauderdale, USA

Data konferencji 3.12.2001- 7.12.2001

Abstract In this paper some limitations of the hearing-aid fitting process are discussed. In the fitting process, an audiologist performs tests on the wearer of the hearing aid, which is then adjusted based on the results of the test, with the goal of making the device work as best as it can for that individual. Traditional fitting procedures employ specialized testing devices which use artificial test signals. Ideally, however, the fitting of hearing aids should also simulate real-world conditions, such as listening to speech in the presence of background noise. Therefore, more satisfying and reliable fitting tests may be achieved through the use of multimedia computers equipped with a properly calibrated sound system. We have developed a new automatic system for fitting hearing aids. It employs fuzzy logic. In this process, a computer makes choices for adjusting the hearing aid's settings by analyzing the patient's responses and answering questions with replies that can lie somewhere between a simple "yes" or "no." This paper will describe the method and present some results of the experiments conducted to test the system.

Streszczenie Niniejszy referat przedstawia główne założenia systemu doboru protez opartego o wnioskowanie rozmyte. W systemie tym w pierwszej fazie badania wykorzystywana jest metoda LGOB (ang. Loudness Growth in 1/2-Octave Bands), pozwalająca na zbadanie zależności subiektywnego wrażenia głośności w funkcji częstotliwości. W metodzie tej badany określa odbierany sygnał według skali subiektywnej. Po określeniu zakresu dynamiki słuchu badanej osoby, określa się następnie sposób narastania wrażenia głośności w ustalonym zakresie. Kolejna faza, to badanie wykorzystujące mowę w szumie. Ten etap pozwala na uzyskanie adekwatnych charakterystyk kompresji protezy. Przetwarzanie uzyskanych wyników dokonywane jest w oparciu o logikę rozmytą.

Pozycja nr 522

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Jaroszuk, A. Poliwodziński, B. Kostek

Tytuł polski Komputerowe przetwarzanie sygnałów akustycznych

Czasopismo Zeszyty Naukowe Wydz. Elektrotechniki i Automatyki Pol. Gdańskiej,

Wolumin 15

Numer czasopisma

Strony 63 - 68

Rok 2001

Streszczenie Pojawienie się technik cyfrowych przetwarzania sygnałów wyparło w ostatnich latach powszechnie wcześniej stosowane metody analogowe. Gwałtowny rozwój technologii komputerowych umożliwił implementację algorytmów cyfrowego przetwarzania dźwięku, działających w czasie rzeczywistym, na komputerach osobistych. Celem prezentowanego ćwiczenia jest zapoznanie się z typowymi algorytmami cyfrowego przetwarzania dźwięku stosowanymi we współczesnych produkcjach muzycznych oraz ich implementacją na komputerze osobistym z wykorzystaniem specjalizowanego oprogramowania MAX/MSP.

Pozycja nr 523

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, K. Kochanek, J. Mazur, P. Odya, H. Skarżyński

Tytuł polski Masowe badania przesiewowe słuchu, wzroku, mowy i szumów usznych przy wykorzystaniu komputerów

Konferencja V Koszalińska Konferencja Naukowo-Techniczna

Numer preprintu

Numer

Wolumin

Strony 9 - 18

Miejsce konferencji Kołobrzeg,

Data konferencji 5.12.2001- 7.12.2001

Pozycja nr 524

Typ pozycji: referat konferencyjny

Autorzy G. Szwoch, B. Kostek

Tytuł angielski Computer simulations of hearing aid acoustical system performance

Tytuł polski Komputerowa symulacja działania akustycznego systemu aparatu słuchowego

Konferencja 142nd Meeting of the Acoustical Society of America, J. Acoust. Soc. Amer.

Numer preprintu 2pPP11

Numer 5

Wolumin 110

Strony 2681

Miejsce konferencji Fort Lauderdale, USA

Data konferencji 3.12.2001- 7.12.2001

Abstract The recent developments in the hearing aid technology enabled a number of improvements in hearing aids. This includes advanced signal processing algorithms, better speech intelligibility, miniaturization etc. One of the existing limitations is, however, the problem with providing patient-related characteristics of the acoustical system of a hearing aid. The aim of this paper is to show that using the physical modeling method it is possible to first build a model of the acoustical system of a hearing aid and then to simulate its performance. The waveguide model of the acoustical system of a hearing aid is proposed. Exemplary results of the computer simulations using such a model are presented and compared with some measurement data of existing hearing aid acoustical systems. The model proved to behave similarly to the real system. Conclusions regarding the application of such a method in the fitting process of a hearing aid are included.

Streszczenie Współczesne badania dotyczące technologii aparatów słuchowych umożliwiły wprowadzenie do nich wielu usprawnień. Zalicza się do nich: zaawansowane algorytmy przetwarzania sygnału, lepszą zrozumiałość mowy, miniaturyzację, itd. Jednym z ograniczeń jest jednak zapewnienie odpowiedniej dla pacjenta charakterystyki akustycznego układu aparatu słuchowego. Celem niniejszej pracy jest wykazanie, że przy użyciu metody modelowania fizycznego możliwe jest skonstruowanie modelu akustycznego układu aparatu słuchowego oraz zasymulowanie jego działania. Zaprezentowano model falowodowy akustycznego układu aparatu słuchowego. Zamieszczono przykładowe wyniki symulacji komputerowych przeprowadzonych przy użyciu tego modelu oraz ich porównanie z danymi pomiarowymi istniejących akustycznych elementów aparatu słuchowego. Zachowanie modelu okazało się być zbliżone do modelowanego systemu. Zamieszczono wnioski dotyczące zastosowania opisanej metody w procesie doboru aparatu słuchowego.

Pozycja nr 525

Typ pozycji: książka

Autorzy R. Królikowski, A. Czyżewski , B. Kostek

Tytuł angielski Localization of Sound Sources by Means of Recurrent Neural Networks

Tytuł polski Lokalizacja źródeł dźwięku za pomocą rekurencyjnych sieci neuronowych

Wydawca Series: Lecture Notes in Computer Science, vol. 2005, Springer-Verlag

Strony 603 - 610

Rok 2001

Abstract The issue of localization of sound sources for videoconferencing is discussed in the paper. A new algorithm for estimating speaker locations, based on recurrent neural networks (RNN), is introduced and described. The scheme of experiments carried out in an acoustically adopted chamber, exploiting the engineered method is detailed.

Streszczenie Przedyskutowano problematyke lokalizacji dźwięku dla potrzeb wideokonferencji. Zaprezentwano nowy algorytm estymacji położenia mówcy, oparty na wykorzystaniu rekurencyjnych sieci neuronowych. Omówiono wyniki eksperymentów, wykorzystujące materiał dźwiękowy przygotowany w komorze bezechowej.

Pozycja nr 526

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, R. Królikowski, B. Kostek

Tytuł angielski Neural Networks Applied to Sound Source Localization

Tytuł polski Zastosowanie sieci neuronowych do lokalizacji źródeł dźwięku

Konferencja 110th Audio Engineering Society Convention

Numer preprintu 5375

Numer

Wolumin

Strony

Miejsce konferencji Amsterdam, Netherlands

Data konferencji 12.5.2001- 15.5.2001

Abstract The primary aim of this paper is to show that it is possible to localise the direction of the incoming acoustical signal based on the neural network trained for that purpose. Consequently, the automatically localised acoustical signal may be attenuated if it obscures the desired target sound. A set of parameters was formulated in order to localise target source and unwanted signals. In order to process acoustical signals incoming from various directions at the same time the neural network-based system was designed and implemented. The feature extraction method is thoroughly discussed, the training process is described and recently obtained results are discussed.

Streszczenie Podstawowym celem referatu jest pokazanie, że jest możliwa lokalizacja kierunku nadchodzącego sygnału akustycznego w oparciu o odpowiednio wytrenowane sieci neuronowe. W tym celu sformułowano zbiór parametrów oraz zaprojektowano i zaimplementowano stosowną sieć neuronową. W referacie przedstawiono proces parametryzacji oraz przedyskutowano uzyskane wyniki eksperymentów.

Pozycja nr 527

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Audio Material Extraction from the Internet Databases

Tytuł polski Wyszukiwanie materiału dźwiękowego z baz muzycznych

Konferencja 46 Internationales Wissenschaftliches Kolloquium, Tagungsband

Numer preprintu

Numer

Wolumin

Strony 208 - 210

Miejsce konferencji Ilmenau, Germany

Data konferencji 24.9.2001- 27.9.2001

Abstract The paper will outline the problems related to automatic search for audio material. The aim of this paper is to show how to automatically recognize individual musical instrument sounds contained in the Internet sites or multimedia databases. This feature is highly needed in today's Internet browsers. In order to recognize musical instruments properly several stages are needed, namely preprocessing, parameterization, and the actual recognition/classification process. The classification process of musical instrument sounds can be done by means of soft computing techniques that use learn-and-test approach. The main principles of methods for the automatic recognition/classification of musical instrument sounds developed and tested at the Sound & Vision Engineering Department, Technical University of Gdansk will be described. Key challenges in the multimedia technology devoted to this problem will be also presented.

Streszczenie W referacie zwraca się szczególną uwagę na problemy związane z automatycznym wyszukiwaniem materiału fonicznego. Celem jest pokazanie możliwości automatycznego rozpoznawania dźwięków muzycznych przechowywanych na stronach internetowych oraz w bazach multimedialnych. Taka funkcja jest konieczna we współczesnych wyszukiwarkach internetowych. Automatyczne rozpoznanie obiektu dźwiękowego związane jest z jego parametryzacją oraz inteligentną decyzją klasyfikatora. Funkcje te można zaimplementować w oparciu o metody przetwarzania sygnału oraz metody inteligentne. W referacie przedstawiono metody automatycznego rozpoznawania dźwięków muzycznych opracowane w Katedrze Inżynierii Dźwięku i Obrazu Politechniki Gdańskiej.

Pozycja nr 528

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski, H. Skarżyński, K. Kochanek

Tytuł angielski Internet-Based Automatic Hearing Assessment System

Tytuł polski Internetowy system badania słuchu

Konferencja 46 Internationales Wissenschaftliches Kolloquium Ilmenau

Numer preprintu

Numer

Wolumin

Strony 87 - 89

Miejsce konferencji Ilmeanu, Germany

Data konferencji 24.9.2001- 27.9.2001

Abstract The aim of this paper is to show the new media application to the domain of health care. In the paper the Internet-based system that allows for automatic testing of hearing is described. Hearing impairment is one of the fastest growing diseases of modern society. Therefore it is very important to organize mass screening tests to identify people suffering from this kind of impairment. The described application provides a test that uses automatic questionnaire analysis, audiometric tone test procedures, and assesses speech intelligibility in noise. When all the testing is completed, the system automatically analyzes the results for each person examined. Based on the number of incorrect answers, the decision is made automatically by the expert system: does the person have normal hearing or does he or she have hearing problems and requires to be examined in one of the consulting centers? Those whose hearing impairment is confirmed are referred to treatment in rehabilitation centers. All these centers are connected via the Internet and are provided with special distributed database access allowing them to automatically register and track the patient discovered during the remote screening.

Streszczenie Celem referatu jest prezentacja możliwości wykorzystania multimediów w medycynie. Opisano w nim system internetowy umożliwiający automatyczne badanie słuchu. Wady słuchu stanowią jedną z najszybciej postępujących chorób we współczesnym społeczeństwie. W tym świetle bardzo ważnym staje się umożliwienie przeprowadzania masowych testów wykrywających ubytki słuchu. Przedstawiona aplikacja zawiera audiometryczny test tonalny, test ilustrowany dla dzieci oraz test rozumienia mowy w szumie. Po zakończeniu testów system automatycznie analizuje wyniki dla każdej badanej osoby. Osoby z wykrytą wadą słuchu kierowane są do specjalistycznych centrów rehabilitacyjnych na dalsze badania. Ośrodki te są połączone przy pomocy łączy internetowych z bazą danych systemu "Słyszę...".

Pozycja nr 529

Typ pozycji: referat konferencyjny

Autorzy B. Kostek

Tytuł angielski Expert system for Musical Style Recognition

Tytuł polski System ekspercki do rozpoznawania materiału muzycznego

Konferencja International Workshop: Human Supervision and Control in Engineering and Music

Numer preprintu

Numer

Wolumin

Strony 173 - 176

Miejsce konferencji Stadthalle Kassel, Germany

Data konferencji 21.9.2001- 24.90.2001

Abstract In this overview some concepts concerning sound engineering, computer music and human supervision are presented. Multimodal-computer interactions consist in, among others, collecting and intelligent searching music related-information. Some concepts related to the author’s experience will be presented. Key findings in sound engineering allow recording music in a natural way. Computers can be employed as both Internet sites collecting music-related data and as algorithmic tools that enable musicians to find needed information. They allow analyzing a given melody, modify it in musically sensible ways, mimic the human way of composing, etc. Human supervision is needed at both stages. The quality of recording cannot be assigned otherwise than subjectively. Organizing a computer site containing music-related information needs also the supervising of the future user. Developing artificial intelligence algorithms and designing ergonomic user interfaces is also a task for a human supervisor.

Streszczenie W artykule zaprezentowano system ekspercki do wyszukiwania materiału muzycznego w bazach internetowych. Przedstawione zostały zadania związane ze zbieraniem i inteligentnym wyszukiwaniem informacji muzycznej. W tym celu można wykorzystać system ekspercki oparty o inteligentne algorytmy decyzyjne i wyposażony w odpowiedni interfejs użytkownika.

Pozycja nr 530

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, B. Kostek, S. Zieliński

Tytuł angielski Waveguide Modeling of Ancient, Japanese Musical Instruments

Tytuł polski Modelowanie fizyczne dawnych instrumentów japońskich

Konferencja ISMA'2001

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Perugia, Italy

Data konferencji 9.2001- 9.2001

Abstract Problems related to the implementation of physical modeling-based synthesis of two traditional Japanese instruments are discussed. Examples of computer analyses of sounds of shakuhachi and koto are presented. On the basis of these analyses some assumptions concerning waveguide models were made. Physical modeling principles of musical instrument sounds generation were also shortly reviewed. Main differences in modeling wind and string instruments were highlighted. The process of constructing models of these two musical instruments was explained. A short discussion concerning problems occurred while creating such models was given. Some general conclusions concerning real-time implementation of the digital waveguide models were also included.

Streszczenie W referacie przedyskutowano problemy związane z konstrukcją modelu fizycznego wybranych instrumentów japońskich. Przeprowadzono szereg analiz dźwięków naturalnych pochodzących z shakuhachi i koto. Nastepnie zaprojektowano modele fizycznych tych instrumentów i przeprowadzono analizę uzyskanych dźwięków. Podano wnioski.

Pozycja nr 531

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Automatic Recognition of Musical Instrument Sounds - Further Developments

Tytuł polski Automatyczna klasyfikacja dźwięków instrumentów muzycznych - rozwój badań

Konferencja 110th Audio Eng. Soc. Convention

Numer preprintu 5116

Numer

Wolumin

Strony

Miejsce konferencji Amsterdam, Netherlands

Data konferencji 12.5.2001- 15.5.2001

Abstract Discussion on the subject of retrieval of musical data from Internet or multimedia databases, which is carried out now for some time does not successfully reach its final stage of application. There are still many problems related to the subject of automatic recognition of music or musical instrument sounds that cannot be easily solved. Especially important is to find adequate parameters of musical signal based on time and frequency and/or wavelet analyses. Proposed feature vectors were derived on the basis of the constructed databases that contain recorded musical sounds. The presented study shows methods of automatic identification of musical instruments based both on classical statistical and soft computing approaches. They were used then to classify musical instruments. A set of results obtained in the carried out investigations is provided and analyzed and concluding remarks are included in the paper.

Streszczenie Referat dotyczy zagadnień związanych z automatycznym wyszukiwaniem informacji w bazach muzycznych. Głównym celem referatu było przedstawienie wektora cech zawierającego parametry dźwięków muzycznych opartych o analizę falkową. Przedstawiono przykładowe wyniki i podano wnioski.

Pozycja nr 532

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski Representing Musical Instrument Sounds for Their Automatic Classification

Tytuł polski Parametryzacja dźwięków muzycznych do celów automatycznej klasyfikacji instrumentów muzycznych

Czasopismo J. Audio Eng. Soc.

Wolumin 49

Numer czasopisma 9

Strony 768 - 785

Rok 2001

Abstract A study of the automatic classification of musical instrument sounds is presented. For this purpose a database of musical instrument sound parameters was built which consists of musical instrument recordings and their parametric representations. The parameterization process was conceived and performed in order to find significant musical instrument sound features and to remove redundancy from the musical signal. Classification experiments of musical instrument sounds were performed with neural networks allowing a discussion of the efficiency of the feature extraction process and its limitations. Conclusions and remarks concerning further development of this study and its relation to the current MPEG-7 standardi-zation process are included.

Streszczenie Artykuł dotyczy zagadnień związanych z automatycznym rozpoznawaniem instrumentów muzycznych. Zawarto w nim dyskusję na temat sposobów parametryzacji, a także przedstawiono wybrane posatci wektora cech. Do celów automatycznej klasyfikacji użyto sztucznych sieci neuronowych. Zawarto wnioski dotyczące tworzonego standardu MPEG-7.

Pozycja nr 533

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski In Search for Surround Sound Recording Techniques

Tytuł polski Wielokanałowe systemy w nagraniach muzyki klasycznej

Konferencja ISMA'2001

Numer preprintu

Numer

Wolumin

Strony

Miejsce konferencji Perugia, Italy

Data konferencji 9.2001- 9.2001

Abstract The existing and recently introduced standards of surround systems allow for reproduction of spatial sound in almost any room conditions. The vital concern of sound production for surround systems is the number of microphones, their positioning, proportion between direct sound, early reflections and the reverberation, artificially added delays, etc. The proper solution of such problems may result in creating spatial impression that is comparable to the live music perception. However this kind of a study should address some of the questions related to surround sound production. The broader aim is to establish recommendations as how to produce recordings of classical music designated for sound surround systems in specific acoustical conditions and then to reproduce it properly. This paper shows a study in which several microphone techniques were used for recordings of classical music in two auditory halls having different acoustical properties. Based on these recordings and various mixing techniques two channel stereo excerpts and some multichannel ones were produced. The latter were encoded in 5.1 multichannel format. The extensive subjective tests were performed employing a group of sound engineers and students in order to find the most preferable recording techniques. The listening tests were first performed employing excerpts obtained for each room separately, then the best production was compared for two rooms. The subjective tests were carried out in the same listening room equipped with the 5.1 surround reproduction system. In the paper results of such a comparison tests are shown. The methodology of carrying out subjective tests is presented. The discussion of obtained results and some conclusions are also included.

Streszczenie W referacie przedyskutowano problemy związane z nagraniem muzyki klasycznej przy użyciu wielokanałowych systemów mikrofonowych. Opisano kilka wybranych systemów, które posłużyły do nagrań muzyki kameralnej. Przeprowadzono szereg testów subiektywnych, których wyniki pozwoliły na wskazanie optymalnego w danych warunkach systemu mikrofonowego.

Pozycja nr 534

Typ pozycji: artykuł w czasopiśmie

Autorzy J. Jaroszuk, A. Poliwodzinski, B. Kostek

Tytuł angielski COMPUTER PROCESSING OF ACOUSTICAL SIGNALS

Tytuł polski Komputerowe przetwarzanie sygnałów akustycznych

Czasopismo Zeszyty naukowe PG

Wolumin

Numer czasopisma 17

Strony 63 - 68

Rok 2001

Abstract One of the essential problems of sound engineering is processing of audio signals. Development of computer technologies has brought the possibility of implementing the real-time DSP algorithms on the personal computer platform. This allows for analyzing the engineered algorithms more thoroughly. The aim of the laboratory session presented in this paper is to introduce students to the programming MAX/MSP software and in addition to implement the most often used real-time audio processing algorithms on the PC platform.

Streszczenie Pojawienie się technik cyfrowych przetwarzania sygnałów wyparło w ostatnich latach powszechnie wcześniej stosowane metody analogowe. Gwałtowny rozwój technologii komputerowych umożliwił implementację algorytmów cyfrowego przetwarzania dźwięku, działających w czasie rzeczywistym, na komputerach osobistych. Celem prezentowanego ćwiczenia jest zapoznanie się z typowymi algorytmami cyfrowego przetwarzania dźwięku stosowanymi we współczesnych produkcjach muzycznych oraz ich implementacją na komputerze osobistym z wykorzystaniem specjalizowanego oprogramowania MAX/MSP.

Pozycja nr 535

Typ pozycji: książka

Autorzy A. Czyżewski, B. Kostek, P. Odya, S. Zieliński

Tytuł angielski Determining Influence of Visual Cues on the Perception of Surround Sound Using Soft Computing

Tytuł polski Badanie wpływu treści obrazu wizyjnego na percepcję dźwięku z wykorzystaniem soft computingu

Wydawca Series: Lecture Notes in Computer Science, vol. 2005, Springer-Verlag

Strony 545 - 552

Rok 2001

Abstract The main challenge in the sound processing in the multichannel system is to create an appropriate basis for the relating multimodal context of visual and sound domains. Therefore, one of the purposes of experiments is to study in which way and how the surround sound interferes or is associated with the visual context. This kind of study was hitherto carried out when two-channel sound technique was associated with a stereo TV

Streszczenie Opisano przebieg i wyniki eksperymentów w dziedzinie badania wpływu treści obrazu na percepcję dźwięku w systemach stereofonii dookólnej.

Pozycja nr 536

Typ pozycji: artykuł w czasopiśmie

Autorzy R. Neubauer, B. Kostek

Tytuł angielski Prediction of the Reverberation Time in Rectangular Rooms with Non-Uniformly Distributed Sound Absorption

Tytuł polski Predykcja warunków pogłosowych w pomieszczeniu o nierównomiernej chłonności akustycznej

Czasopismo Archives of Acoustics

Wolumin 26

Numer czasopisma 3

Strony 183 - 201

Rok 2001

Abstract The aim of this paper is first to review the best known reverberation time formulae and then to show that they cannot predict the reverberation time accurately in cases mostly encountered in practice, where the sound field is not diffuse. Introducing a correction to the Fitzroy’s formula allows predicting better the reverberation time in the case of non-uniformly distributed sound absorption. Comparison of calculation results obtained on both the basis of classical equations and the new time reverberation formula introduced is shown and conclusions are drawn.

Streszczenie W artykule dokonano przeglądu literatury związanej z określaniem czasu pogłosu w pomieszczeniu. Wprowadzono wzór na czas pogłosu, który pozwala na dokładniejszą predykcję warunków pogłosowych w przypadku pomieszczeń prostopadłościennych o nierónowmiernej chłonności akustycznej. Przedyskutowano uzyskane wyniki i podano wnioski.

Pozycja nr 537

Typ pozycji: referat konferencyjny

Autorzy A. Czyżewski, A. Kornacki, G. Szwoch, B. Kostek

Tytuł angielski Simulation of the Reverberant Space in the Multichannel Audio Using the Convolution Method

Tytuł polski Symulacja pogłosu w technice wielokanałowej przy użyciu metody splotu

Konferencja 17th International Congress on Acoustics

Numer preprintu 4D.09.04

Numer

Wolumin

Strony 163

Miejsce konferencji Rome, Italy

Data konferencji 2.9.2001- 7.9.2001

Abstract The convolution method is commonly used to simulate the reverberant space by convolving monophonic or stereophonic sounds with the impulse responses of the room.In this paper,application of this method to the multichannel audio is proposed. The impulse responses of the real room were recorded.Each of the audio channels was obtained using the convolution of the adequate room impulse response with monophonic source sound.The results of the convolution were then combined and encoded as the multichannel surround audio in the format 5.1. The time and spectral analyses of the resulting sounds,as well as the listening tests were performed.The results of these experiments are presented and discussed in the paper. The presented method allows one to simulate the acoustical conditions of the room where the monophonic audio was acquired. Possible applications of this method include advanced Internet teleconferencing in which the bandwidth requirements may be decreased by transmitting only monophonic sounds and the impulse responses of the room instead of the whole multichannel audio.

Streszczenie Metoda splotu jest powszechnie stosowana w celu zasymulowania warunków pogłosowych poprzez splot sygnału monofonicznego lub stereofonicznego z odpowiedzią impulsową pomieszczenia. W artykule zaproponowano zastosowanie tej metody w technice dźwięku wielokanałowego. Zarejestrowano odpowiedzi impulsowe rzeczywistych pomieszczeń. Każdy z kanałów dźwięku został otrzymany przez splot odpowiedniej odpowiedzi impulsowej pomieszczenia z monofonicznym sygnałem źródłowym. Wyniki splotu zostały następnie połaczone i zakodowane w formacie dźwięku wielokanałowego 5.1. Przeprowadzono analizy czasowe i widmowe otrzymanych dźwięków oraz testy odsłuchowe. Wyniki eksperymentów zostały przedstawione i przedyskutowane w niniejszym artykule. Przedstawiona metoda umożliwia symulację warunków akustycznych pomieszczenia, w którym zarejestrowano dźwięk monofoniczny. Możliwe zastosowania tej metody to zaawansowane techniki telekonferencyjne w Internecie, w których możliwe będzie zmniejszenie wymagań dotyczacych przepustowości łaczy, poprzez transmisję wyłącznie dźwięku monofonicznego oraz odpowiedzi impulsowych pomieszczenia zamiast pełnego dźwięku wielokanałowego.

Pozycja nr 538

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, P. Żwan

Tytuł angielski Wavelet-based automatic recognition of musical instruments

Tytuł polski Rozpoznawanie dźwięków instrumentów mzuycznych z wykorzystaniem analizy falkowej

Konferencja 142nd Meeting of the Acoustical Society of America, J. Acoust. Soc. Amer.

Numer preprintu 4pMU5

Numer 5

Wolumin 110

Strony 2754

Miejsce konferencji Fort Lauderdale, USA

Data konferencji 3.12.2001- 7.12.2001

Abstract The objective of the present work is to automatically extract information from monophonic sounds. This process consists of several stages, namely, preprocessing, parameterization, and classification. This paper shows a thorough study on the wavelet-based parameterization of musical instrument sounds and automatic recognition by means of artificial neural networks (ANNs). First, an engineered method of pitch detection is presented and exemplified by several analyses. A short discussion on error associated with automatic pitch tracking is also included. Then, examples of time-frequency analyses of various musical instrument groups are presented. The analyses are performed employing a database containing musical sounds recorded at the Sound and Vision Engineering Department, Technical University of Gdansk. On the basis of such analyses a set of parameters is derived. Feature vector properties are then discussed. For that purpose Fisher statistics is used. It allows checking the separability between musical instrument pairs. In addition, for the purpose of automatic recognition of musical instrument groups artificial neural networks are used. Various structures and training methods of the ANNs are examined. Exemplary results obtained in the carried out investigations are provided and analyzed. Concluding remarks concerning further development of such experiments are also included in the paper.

Streszczenie Celem referatu było przedstawienie wyników analizy własności wektora cech dźwięków instrumentów muzycznych opartego o transformację falkową. Skupiono się również na problemie automatycznej detekcji częstotliwości podstawowej dźwięków instrumentów muzycznych. Przedyskutowano otrzymane wyniki oraz podano wnioski.

Pozycja nr 539

Typ pozycji: referat konferencyjny

Autorzy B. Kostek, A. Czyżewski

Tytuł angielski A method for the automatic hearing aid fitting employing speech in noise

Tytuł polski System ekspercki do doboru protez

Konferencja 142nd Acoustical Soc. of America Meeting

Numer preprintu 2pPP10

Numer 5

Wolumin 110

Strony 2680

Miejsce konferencji Fort Lauderdale, USA

Data konferencji 3.12.2001- 7.12.2001

Abstract Some limitations of the hearing aid fitting process are discussed. The classical procedures in this process are based on audiometric test results and/or the loudness scaling method employing artificial test signals. However, the fitting of hearing aids should be also performed on the basis of testing speech understanding in noise, because this is much closer to the real life conditions. A satisfying reliability of these tests may be achieved through the use of modern computer technology with an application of a properly calibrated sound system. A new strategy applicable to fitting prostheses was developed. It allows finding automatically characteristics of a hearing aid matching patients needs. The principles of the fitting method employing fuzzy reasoning, and some results of the experiments will be presented in the paper.

Streszczenie W referacie przedstawiono problemy związane z procesem doboru protez. Zaprojektowano multimedialny system wspomagający dobór protez słuchowych. System ten umożliwia automatyczne określenie optymalnych dla pacjenta charakterystyk protez słuchowych.

Pozycja nr 540

Typ pozycji: artykuł w czasopiśmie

Autorzy B. Kostek

Tytuł angielski Soft Computing-Based Automatic Recognition of Musical Instrument Classes

Tytuł polski Automatyczne rozpoznawanie klas instrumentów muzycznych przy wykorzystaniu algorytmów "soft computingu"

Czasopismo J. ITC Sangeet Resarch Academy

Wolumin 15

Numer czasopisma Oct.

Strony 6 - 32

Rok 2001

Uwagi ISSN 0972-4990, Calcutta, India

Abstract The objective of the presented study was to automatically extract information from monophonic sounds. This process consisted of several stages, namely preprocessing, parameterization and classification. This paper first shows a review on previous work conducted by the author. In addition a more detailed study on the wavelet-based parameterization of musical instrument sounds and automatic recognition by means of artificial neural networks (ANNs) is also shown. First, an engineered method of pitch detection is presented and exemplified by several analyses. A short discussion on error associated with automatic pitch tracking is also included. Then, examples of time-frequency analyses of various musical instrument groups are presented. The analyses are performed employing a database containing musical sounds recorded at the Sound & Vision Engineering Department, Technical University of Gdansk. On the basis of such analyses a set of parameters is derived. Feature vector properties are then discussed. For that purpose Fisher statistics is used. It allows checking the separability between musical instrument pairs. In addition, for the purpose of automatic recognition of musical instrument groups artificial neural networks are used. Various structures and training methods of the ANNs are examined. Exemplary results obtained in the carried out investigations are provided and analyzed. Concluding remarks concerning further development of such experiments are also included in the paper.

Streszczenie W artykule przedstawiono wyniki eksperymentów dotyczących automatycznego rozpoznawania klas instrumentów muzycznych. Proces klasyfikacji zrealizowano w oparciu o sztuczne sieci neuronowe, zaś wektor cech został oparty o parametry obliczane w wyniku analizy falkowej dźwięków instrumentów muzycznych.