Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "MFCC coefficients" wg kryterium: Temat


Wyświetlanie 1-8 z 8
Tytuł:
Rozpoznawanie wieku i płci na podstawie analizy głosu
Age and gender recognition based on analysis of voice
Autorzy:
Gabryś, J.
Gil, G.
Kiszka, P.
Tematy:
automatyczne rozpoznawanie mowy
wiek
płeć
współczynniki MFCC
klasyfikacja mówcy
maszyna wektorów nośnych
automatic speech recognition
age
gender
MFCC coefficients
classification of speaker
support vector machine (SVM)
Pokaż więcej
Wydawca:
Politechnika Wrocławska. Wydział Podstawowych Problemów Techniki. Katedra Inżynierii Biomedycznej
Powiązania:
https://bibliotekanauki.pl/articles/261820.pdf  Link otwiera się w nowym oknie
Opis:
Metody automatycznego rozpoznawania wieku i płci pozwalają na rozpoznanie cech osoby mówiącej tylko na podstawie nagrania jej wypowiedzi. Mowa ludzka, poza werbalnym komunikatem, niesie ze sobą informacje dotyczące osoby mówiącej. Nagranie mowy osoby pozwala na wyodrębnienie takich informacji, jak jej płeć, wiek, a także emocje. Zaprezentowano przegląd metod rozpoznawania wieku i płci osób na podstawie ich mowy oraz wykonano implementację i przetestowano połączenie metod wyznaczania parametrów MFCC (współczynniki analizy cepstralnej w skali mel (Mel-frequency Cepstral Coefficients) i wysokości tonu głosu f0 oraz algorytmu SVM (metoda wektorów nośnych - Support Vector Machines) do klasyfikacji próbek głosowych. Testy zaimplementowanego rozwiązania pozwalają stwierdzić, że metoda jest skuteczna w większości przypadków testowych.
Methods for automatic recognition of the age and gender characteristics allow the identification of the person only on the basis of recording of this person speech. Human speech, beyond verbal communication, gives an information about the speaking person. Speech recording allows the identification personal characteristics such as gender, age, and the emotions. The paper presents an overview of methods of age and gender recognition of people based on their speech. A combination of methods for determining the parameters MFCC (Mel-frequency Cepstral Coefficients) and pitch of voice (f0) and SVM (Support Vector Machines) algorithm for the classification of voice samples is implanted and tested. It was demonstrated that the method is effective in the majority of test cases.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Hierarchical Classification of Environmental Noise Sources Considering the Acoustic Signature of Vehicle Pass-Bys
Autorzy:
Valero, X.
Alias, F.
Tematy:
acoustic signature
environmental noise monitoring
Gaussian mixture models
hierarchical classification
mel-frequency cepstral coefficients (MFCC)
sound classification
traffic noise
vehicle pass-by
Pokaż więcej
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Powiązania:
https://bibliotekanauki.pl/articles/176616.pdf  Link otwiera się w nowym oknie
Opis:
This work is focused on the automatic recognition of environmental noise sources that affect humans’ health and quality of life, namely industrial, aircraft, railway and road traffic. However, the recognition of the latter, which have the largest influence on citizens’ daily lives, is still an open issue. Therefore, although considering all the aforementioned noise sources, this paper especially focuses on improving the recognition of road noise events by taking advantage of the perceived noise differences along the road vehicle pass-by (which may be divided into different phases: approaching, passing and receding). To that effect, a hierarchical classification scheme that considers these phases independently has been implemented. The proposed classification scheme yields an averaged classification accuracy of 92.5%, which is, in absolute terms, 3% higher than the baseline (a traditional flat classification scheme without hierarchical structure). In particular, it outperforms the baseline in the classification of light and heavy vehicles, yielding a classification accuracy 7% and 4% higher, respectively. Finally, listening tests are performed to compare the system performance with human recognition ability. The results reveal that, although an expert human listener can achieve higher recognition accuracy than the proposed system, the latter outperforms the non-trained listener in 10% in average.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Visualization of stages of determining cepstral factors in speech recognition systems
Autorzy:
Proksa, R.
Tematy:
rozpoznawanie mowy
LPCC
MFCC
wyizolowane słowo
sygnały mowy
speech recognition
cepstral coefficients
isolated word
Pokaż więcej
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Powiązania:
https://bibliotekanauki.pl/articles/333103.pdf  Link otwiera się w nowym oknie
Opis:
The article presents two methods of determination of cepstral parameters commonly applied in digital signal processing, in particular in speech recognition systems. The solutions presented are part of a project aimed at developing applications allowing to control the Windows operating system with voice and the use of MSAA (Microsoft Active Accessibility). The analysed voice signal has been visually presented at each of the crucial stages of developing cepstral coefficients.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Wykorzystanie metody niejawnych modeli Markowa w automatycznej detekcji wybranych wad wymowy
Application Hidden Markov Models to Automatic Detection of Speech Disorder
Autorzy:
Wielgat, R.
Zieliński, T.
Świętojański, P.
Żołądź, P.
Woźniak, T.
Grabias, S.
Król, D.
Tematy:
współczynniki HFCC
współczynniki MFCC
niejawne modele Markowa
terapia logopedyczna
human factor cepstral coefficients
Mel-frequency cepstral coefficients
hidden markov models
logopedic therapy
Pokaż więcej
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Powiązania:
https://bibliotekanauki.pl/articles/152366.pdf  Link otwiera się w nowym oknie
Opis:
W artykule przedstawiono wyniki badań dotyczących automatycznej detekcji wad wymowy u dzieci. Jako materiał badawczy zostały wykorzystane nagrania pochodzące od dzieci z wadami wymowy. Zadanie polegało na rozpoznaniu nieprawidłowo realizowanego fonemu w wybranych słowach testowych. Detekcja była dokonywana za pomocą metod rozpoznawania mowy, w których jako cec sygnału mowy użyto dwóch najbardziej obiecujących rodzajów cech: współczynnika MFCC praz współczynników HFCC. Jako klasyfikatora użyto metody niejawnych modeli Markowa (HMM), gdzie modelowanymi jednostkami fonetycznimi były zarówno fonemy jak i całe słowa. W badanych metodach dobrano ich parametry w celu zmaksymalizowania skuteczności rozpoznawania. W artykule zaprezentowano również analizę porównawczą wyników rozpoznawania otrzymanych z wykorzystaniem metody HMM oraz testowanej w poprzednich pracach metody nieliniowej transformacji czasowej (DTW).
The results of research on automatic detection of the pathological phoneme pronunciation are presented in the paper. Speech samples came from speech impaired children and persons who imitated pathological phoneme pronunciation. The recognition task was to find wrongly realized phoneme in the selected test utterances. At the reature extraction stage the most effective features` types have been used: standard Mel-Frequency Cepstral Coefficients (MFCC) and recently proposed Human Factor Cepstral Coefficients (HFCC). As a classificator hidden Markov models, with modeled speech unit being a phoneme as well as a whole word, have been used. The parameters of the HMMs were adjusted in order to achieve the best recognition accuracy. Comparision of the HMM and DTW methods is also presented in the paper.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Effect of Time-domain Windowing on Isolated Speech Recognition System Performance
Autorzy:
Ananthakrishna, Thalengala
Anitha, H.
Girisha, T.
Tematy:
hidden Markov model
HMM
isolated speech recognition system
ISR
Kannada language
mono-phone model
Mel frequency cepstral coefficients
MFCC
Pokaż więcej
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Powiązania:
https://bibliotekanauki.pl/articles/2055228.pdf  Link otwiera się w nowym oknie
Opis:
Speech recognition system extract the textual data from the speech signal. The research in speech recognition domain is challenging due to the large variabilities involved with the speech signal. Variety of signal processing and machine learning techniques have been explored to achieve better recognition accuracy. Speech is highly non-stationary in nature and therefore analysis is carried out by considering short time-domain window or frame. In the speech recognition task, cepstral (Mel frequency cepstral coefficients (MFCC)) features are commonly used and are extracted for short time-frame. The effectiveness of features depend upon duration of the time-window chosen. The present study is aimed at investigation of optimal time-window duration for extraction of cepstral features in the context of speech recognition task. A speaker independent speech recognition system for the Kannada language has been considered for the analysis. In the current work, speech utterances of Kannada news corpus recorded from different speakers have been used to create speech database. The hidden Markov tool kit (HTK) has been used to implement the speech recognition system. The MFCC along with their first and second derivative coefficients are considered as feature vectors. Pronunciation dictionary required for the study has been built manually for mono-phone system. Experiments have been carried out and results have been analyzed for different time-window lengths. The overlapping Hamming window has been considered in this study. The best average word recognition accuracy of 61.58% has been obtained for a window length of 110 msec duration. This recognition accuracy is comparable with the similar work found in literature. The experiments have shown that best word recognition performance can be achieved by tuning the window length to its optimum value.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Porównanie wyników analizy cepstralnej z innymi parametrami oceny głosu u pacjentów z dysfoniami zawodowymi
Comparison of cepstral coefficients to other voice evaluation parameters in patients with occupational dysphonia
Autorzy:
Niebudek-Bogusz, Ewa
Strumiłło, Paweł
Wiktorowicz, Justyna
Śliwińska-Kowalska, Mariola
Tematy:
kompleksowa ocena głosu
współczynniki cepstralne MFCC
zawodowe zaburzenia głosu
complex voice assessment
mel-cepstral coefficients
MFCCs
occupational voice disorders
Pokaż więcej
Wydawca:
Instytut Medycyny Pracy im. prof. dra Jerzego Nofera w Łodzi
Powiązania:
https://bibliotekanauki.pl/articles/2166319.pdf  Link otwiera się w nowym oknie
Opis:
Wprowadzenie: W ostatnim czasie wśród obiektywnych metod oceny głosu uznaniem cieszy się analiza akustyczna oparta na wyznaczaniu współczynników cepstralnych MFCC (mel-frequency cepstral coefficients). Celem badania była ocena ich zastosowania w diagnozowaniu dysfonii zawodowych w porównaniu z innymi subiektywnymi i obiektywnymi parametrami diagnostycznymi zaburzeń głosu. Materiał i metody: W badaniu wzięły udział 2 grupy kobiet: grupa badana - 55 nauczycielek (średni wiek: 45 lat) z dysfoniami o podłożu zawodowym, potwierdzonymi badaniem laryngowideostroboskopowym, oraz grupa porównawcza - 40 kobiet z głosem prawidłowym (średni wiek: 43 lata). Próbki dźwiękowe (samogłoska ‘a' oraz 4 znormalizowane fonetycznie zdania) poddano analizie MFCC. Wyniki porównano z parametrami akustycznymi (z grupy jittera, z grupy shimmera, parametrem oceny szumów NHR i współczynnikiem chrypki Yanagihary), parametrem aerodynamicznym (maksymalnym czasem fonacji) i parametrami subiektywnymi (skalą percepcyjną GRBAS i wskaźnikiem niepełnosprawności głosowej VHI). Wyniki: Analiza cepstralna wykazała znaczące różnice między grupą badaną a porównawczą, istotne dla współczynników MFCC2, MFCC3, MFCC5, MFCC6, MFCC8, MFCC10, szczególnie dla MFCC6 (p < 0,001) oraz dla MFCC8 (p < 0,009), co może sugerować ich przydatność kliniczną. Z kolei w grupie badanej MFCC4, MFCC8 i MFCC10 istotnie korelowały z większością zastosowanych parametrów obiektywnych oceny głosu. Ponadto współczynnik MFCC8, który u badanych nauczycielek korelował istotnie z wszystkimi ww. 8 parametrami obiektywnymi, wykazał też istotną zależność z cechą dystynktywną A (asthenity) subiektywnej skali GRBAS, cechującej głos słaby, zmęczony. Wnioski: Analiza cepstralna, oparta na wyznaczaniu współczynników MFCC, jest dobrze rokującym narzędziem do obiektywnej diagnostyki dysfonii zawodowych, które bardziej niż inne metody analizy akustycznej odzwierciedla cechy percepcyjne głosu. Med. Pr. 2013;64(6):805–816
Background: Special consideration has recently been given to cepstral analysis with mel-frequency cepstral coefficients (MFCCs). The aim of this study was to assess the applicability of MFCCs in acoustic analysis for diagnosing occupational dysphonia in comparison to subjective and objective parameters of voice evaluation. Materials and Methods: The study comprised 2 groups, one of 55 female teachers (mean age: 45 years) with occupational dysphonia confirmed by videostroboscopy and 40 female controls with normal voice (mean age: 43 years). The acoustic samples involving sustained vowels "a" and four standardized sentences were analyzed by computed analysis of MFCCs. The results were compared to acoustic parameters of jitter and shimmer groups, noise to harmonic ratio, Yanagihara index evaluating the grade of hoarseness, the aerodynamic parameter: maximum phonation time and also subjective parameters: GRBAS perceptual scale and Voice Handicap Index (VHI). Results: The compared results revealed differences between the study and control groups, significant for MFCC2, MFCC3, MFCC5, MFCC6, MFCC8, MFCC10, particularly for MFCC6 (p < 0.001) and MFCC8 (p < 0.009), which may suggest their clinical applicability. In the study group, MFCC4, MFCC8 and MFCC10 correlated significantly with the major objective parameters of voice assessment. Moreover, MFCC8 coefficient, which in the female teachers correlated with all eight objective parameters, also showed the significant relation with perceptual voice feature A (asthenity) of subjective scale GRBAS, characteristic of weak tired voice. Conclusions: The cepstral analysis with mel frequency cepstral coefficients is a promising tool for evaluating occupational voice disorders, capable of reflecting the perceptual voice features better than other methods of acoustic analysis. Med Pr 2013;64(6):805–816
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Acoustic model for the classification of Polish vowels
Autorzy:
Pondel-Sycz, Karolina
Tematy:
ASR
MFCC
PNCC
HMM
SVM
ANN
k-NN
automatic speech recognition
power-normalised cepstral coefficients
hidden Markov models
support vector machines
artificial neural networks
k-nearest neighbours
automatyczne rozpoznawanie mowy
współczynnik cepstralny znormalizowany pod względem mocy
ukryte modele Markowa
maszyna wektorów nośnych
sztuczne sieci neuronowe
k-najbliżsi sąsiedzi
Pokaż więcej
Wydawca:
Politechnika Poznańska. Instytut Mechaniki Stosowanej
Powiązania:
https://bibliotekanauki.pl/articles/58908080.pdf  Link otwiera się w nowym oknie
Opis:
The study explored the performance of vowel recognition using an acoustic model built on Audio Fingerprint techniques [1]. The research compares the performance of Support Vector Machines (SVMs), Hidden Markov Models (HMMs), Artificial Neural Networks (ANNs) and k-Nearest Neighbours (k-NN) classifiers in the recognition of isolated and within-word vowels and investigates the importance of different types of acoustic speech features in this process. Temporal, spectral, cepstral, formant, LPC and perceptual features of speech were examined. Importance of features was tested using a random forest classifier. Vowel classification was tested at three confidence levels for feature importance: 90%, 95% and 99%. Two author databases consisting of a total of 1,200 samples from 20 speakers, recorded under household conditions, were used. The classifiers were evaluated by confusion matrix, accuracy, precision, sensitivity and F1 score. A segmentation of words into speech sounds was carried out using a tool based on BiLSTM recurrent neural networks and the BIC criterion. Three most important features were determined: power spectral density, spectral cut-off, and Power-Normalised Cepstral Coefficients. In the isolated vowel recognition task, the SVM classifier was the most effective with a feature significance confidence level of 95% obtaining accuracy = 81%, precision = 81%, sensitivity = 81%, F1 score = 80%. In the task of recognising a vowel within a word, it was verified if the algorithm detected the presence of vowels in the correct segment and if it recognised the correct vowel within it. The best results were obtained by the k-NN classifier (statistical confidence level of feature importance of 99.9%). However, these results were low, correct recognition of the vowel in the word: A, E, U: 20%, I, O: 7%, Y: 23%. This indicates strong influence of the neighbourhood of other speech sounds in speech on the acoustic model of vowels and their recognition.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rozpoznawanie mowy z wykorzystaniem sieci neuronowych
Speech recognition using neural networks
Autorzy:
Nesterenko, Pavlo
Opis:
The master's thesis focuses on the topic of speech recognition, with the first chapter providing an overview of various systems of this type. It discusses the fundamentals of artificial neural networks, deep neural networks, as well as traditional methods of speech recognition, including Hidden Markov Models (HMM) and Gaussian Mixture Models (GMM). Subsequently, traditional systems and neural network-based systems are compared, presenting various neural network architectures for speech recognition. The second chapter focuses on the preprocessing of speech data and feature extraction techniques, such as Mel-frequency cepstral coefficients (MFCC) and gamma-tone filterbank energy (GFE), along with feature normalization and scaling. The third chapter presents the computer tools used in the study, such as Python, PyTorch, and Keras, and provides a detailed description of the implementation of speech recognition using recurrent neural networks (RNN) and convolutional neural networks (CNN).
Praca magisterska skupia się na tematyce rozpoznawania mowy, przy czym pierwszy rozdział stanowi przegląd różnych systemów tego typu. Omówiono w nim zarówno podstawy sztucznych sieci neuronowych, głębokich sieci neuronowych, jak i tradycyjne metody rozpoznawania mowy, w tym ukryte modele Markowa (HMM) oraz modele mieszanin Gaussowskich (GMM). Następnie porównano systemy tradycyjne i oparte na sieciach neuronowych, przedstawiając różne architektury sieci neuronowych dla rozpoznawania mowy. Drugi rozdział skupia się na wstępnym przetwarzaniu danych mowy oraz technikach ekstrakcji cech, takich jak współczynniki cepstralne częstotliwości Mel (MFCC) i energia banku filtrów gammatonowych (GFE), wraz z normalizacją i skalowaniem cech. Trzeci rozdział prezentuje narzędzia komputerowe wykorzystane w pracy, takie jak Python, PyTorch i Keras, oraz szczegółowy opis projektu realizacji rozpoznawania amowy przy użyciu sieci rekurencyjnych (RNN) i konwolucyjnych sieci neuronowych (CNN).
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
    Wyświetlanie 1-8 z 8

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies