Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/87618
Title: | Emotion-based Analysis and Classification of Audio Music | Authors: | Panda, Renato Eduardo Silva | Orientador: | Paiva, Rui Pedro | Keywords: | audio music emotion recognition; music information retrieval; emotionally-relevant audio features; musical texture; expressive techniques; bi-modal approaches; music and emotion; reconhecimento emocional em música áudio; recuperação de informação musica; características musicais emocionalmente relevantes; textura musical; técnicas expressivas; abordagens bi-modais; música e emoção | Issue Date: | 8-May-2019 | Project: | info:eu-repo/grantAgreement/FCT/SFRH/SFRH/BD/91523/2012/PT/EMOTION-BASED ANALYSIS AND CLASSIFICATION OF AUDIO MUSIC | Abstract: | This research work addresses the problem of music emotion recognition using audio signals. Music emotion recognition research has been gaining ground over the last two decades. In it, the typical approach starts with a dataset, composed of music files and associated emotion ratings given by listeners. This data, typically audio signals, is first processed by computational algorithms in order to extract and summarize their characteristics, known as features (e.g., beats per minute, spectral metrics). Next, the feature set is fed to machine learning algorithms looking for patterns that connect them to the given emotional annotations. As a result, a computational model is created, which is able to infer the emotion of a new and unlabelled music file based on the previously found patterns. Although several studies have been published, two main issues remain open and are the current barrier to progress in field. First, a high-quality public and sizeable audio dataset is needed, which can be widely adopted as a standard and used by different works. Currently, the public available ones suffer from known issues such as low quality annotations or limited size. Also, we believe novel emotionally-relevant audio features are needed to overcome the plateau of the last years. Supporting this idea is the fact that the vast majority of previous works were focused on the computational classification component, typically using a similar set of audio features originally proposed to tackle other audio analysis problems (e.g., speech recognition). Our work focuses on these two problems. Proposing novel emotionally-relevant audio features requires knowledge from several fields. Thus, our work started with a review of music and emotion literature to understand how emotions can be described and classified, how music and music dimensions work and, as a final point, to merge both fields by reviewing the identified relations between musical dimensions and emotional responses. Next, we reviewed the existent audio features, relating them with one of the eight musical dimensions: melody, harmony, rhythm, dynamics, tone color, expressive techniques, musical texture and musical form. As a result, we observed that audio features are unbalanced across musical dimensions, with expressive techniques, musical texture and form said to be emotionally-relevant but lacking audio extractors. To address the abovementioned issues, we propose several audio features. These were built on previous work to estimate the main melody notes from the low-level audio signals. Next, various musically-related metrics were extracted, e.g., glissando presence, articulation information, changes in dynamics and others. To assess their relevance to emotion recognition, a dataset containing 900 audio clips, annotated in four classes (Russell’s quadrants) was built. Our experimental results show that the proposed features are emotionally-relevant and their inclusion in emotion recognition models leads to better results. Moreover, we also measured the influence of both existing and novel features, leading to a better understanding of how different musical dimensions influence specific emotion quad-rants. Such results give us insights about the open issues and help us define possible research paths to the near future. Este trabalho aborda o tema do reconhecimento emocional em música utilizando sinais áudio polifónicos. A área do reconhecimento de emoções em música tornou-se um foco de estudo nas últimas duas décadas. Nesta área, a abordagem típica começa com um conjunto de dados e respectivas anotações emocionais geradas por ouvintes. Estes dados, sendo a forma mais comum os sinais áudio, são primeiro processados por algoritmos computacionais para extracção de informação sobre os mesmos (e.g., batidas por minuto ou métricas de energia). De seguida, o conjunto de características extraídas é analisado por algoritmos de aprendizagem computacional, identificando padrões que associam as mesmas às diferentes emoções associadas. O resultado final é um modelo que utiliza as regras aprendidas para identificar a emoção numa nova música ainda desconhecida. Embora vários investigadores tenham abordado o tema, consideramos que existem dois problemas principais que se mantêm em aberto e contribuem para a falta de progresso no campo. Primeiro, faltam conjuntos de dados de qualidade, tamanho considerável e livre acesso que sejam adoptados pela área como testes-padrão e assim facilitem a comparação de trabalhos. Para além disso, e não menos importante, são necessários novos algoritmos computacionais capazes de extrair do sinal áudio características musicais emocionalmente relevantes. Na base desta ideia, está o facto de a grande maioria dos trabalhos anteriores ser mais focada na componente de classificação computacional, limitando-se durante a extracção de características a utilizar algoritmos criados para outros problemas (e.g., reconhecimento de fala). Este trabalho tem como principal objectivo o de atacar estes problemas. A extracção de características emocionalmente relevantes a partir de sinais áudio requer um conhecimento sólido em diversas áreas. Assim, este trabalho começou com uma revisão da literatura nas áreas da música e da emoção. Estas serviram de base para perceber os diferentes paradigmas na classificação de emoções, as várias componentes e dimensões musicais e identificar as relações que são conhecidas entre dimensões musicais e respostas emocionais específicas. De seguida, foram analisados vários dos algoritmos computacionais existentes para extracção de características de áudio, associando cada um destes com uma das oito dimensões musicais possíveis: melodia, harmonia, ritmo, dinâmica, timbre (ou tom da cor), técnicas de expressividade, textura e forma. Como resultado, verificámos que dimensões como a textura e forma musical ou técnicas de expressividade são apontadas como relevantes emocionalmente mas poucos são os algoritmos que tentam capturar alguma desta informação. De forma a mitigar esta lacuna, foram propostos vários algoritmos para extrair características musicais. Estas começam por utilizar trabalho anterior, transformando o sinal áudio numa estimativa das notas que representam a melodia principal. Através destas, são extraídas diversas métricas, e.g., presença de glissando, informação sobre articulação, variações de dinâmica, entre outras. Para avaliar a influência destas no reconhecimento emocional, foi criado um conjunto de dados de 900 excertos musicais, anotadas em quatro classes (quadrantes) e devidamente balanceado. Os resultados experimentais demonstram que a adição das características propostas melhora a classificação de forma estatisticamente significativa. Para além disso, foi também medida a influência das várias características, levando a uma melhor compreensão de como as diferentes dimensões musicais influenciam estados emocionais específicos. Estas permitem traçar alguns caminhos para investigação futura, uma vez que o problema do reconhecimento emocional em música está longe de estar resolvido. |
Description: | Tese de Doutoramento em Ciências e Tecnologias da Informação, apresentada ao Departamento de Engenharia Informática da Faculdade de Ciências e Tecnologia da Universidade de Coimbra | URI: | https://hdl.handle.net/10316/87618 | Rights: | openAccess |
Appears in Collections: | FCTUC Eng.Informática - Teses de Doutoramento |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Emotion-based Analysis and Classification of Audio Music.pdf | 8.99 MB | Adobe PDF | View/Open |
Page view(s) 50
927
checked on Oct 30, 2024
Download(s) 20
1,152
checked on Oct 30, 2024
Google ScholarTM
Check
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.