音频几个主要底层特征与听众及评价的关系

来源 :科技风 | 被引量 : 0次 | 上传用户:bazhahai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在快速发展的数字市场里,音乐产业正在进行着从实体到数字,音乐在数字市场所占的比例也在逐年增加,其所带来的经济收益也越来越可观。本文主要以音乐视频(Music Video,MV)为研究对象,概述音频几个主要底层特征与听众评价的关系。
  关键词:音频;底层特征;听众评价
  1 频谱特征与听众情绪及评价的关系
  频谱特征对于音频而言是一个很重要的底层特征。它是通过对音频信号进行短时傅里叶变换而得到的谱特征,是音频信号最基本的底层特征。
  Krishna Kishore 和Krishna Satish 在其文章中選取SAVEE数据库中的数据,使用基于倒谱参数的子带(Subband based Cepstral Parameter)和MFCC两种算法识别愤怒、沮丧、害怕、快乐、中性、悲伤六种情感,其最高准确率达到79%。Bhaykar等人在其文章中研究了在演讲人固定、不固定以及多种语言交叉的三种情况下进行情感识别,进一步验证了梅尔频率倒谱系数的有效性。研究中选用了IITKGP-SESC和IITKGP-SEHSC两个语音数据库,并使用高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)作为分类模型进行情感分类,文中共涉及了七种情感,分别为愤怒、厌恶、恐惧、快乐、中立、讽刺和惊喜。研究结果表明基于GMM模型使用MFCC特征识别7种情感的正确率为47.14%,而基于HMM模型的正确率为40.55%。频谱重心也是一个重要的频谱特征。Antonio Rodà对古老的音乐唱片进行了研究,使用4种不同尺寸的唱针重新刻录这些唱片,并选取了年龄在21到26岁间的24个志愿者欣赏重新刻录的唱片,通过志愿者的评价,利用频谱重心和声音的明亮度等音频特征进行了定量的感知测验分析,以检验唱片重新刻录的质量。实验结果表明,不同的唱针类型对刻录唱片的质量有一定的影响。频谱通量作为最基本的音频特征,也有许多研究中使用这个特征。如Wang Xing等人在其研究中利用音乐情感和音乐结构构建音乐数据库,研究中提取的特征有频谱特征、声音明亮度、梅尔频率倒谱系数、频谱重心、节奏等音频特征,利用这些音频底层特征构建了情感回归因子,实验结果证明音频底层特征可以建立比较好的情感回归因子。综上所述,音频的频谱特征影响着听众情绪,从而影响着其对该音乐的评价的好坏。
  2 节奏特征与听众情绪及评价的关系
  节奏是音乐中不可缺少的一部分,节奏特征对于音乐的分析也是必不可少的底层特征。常用的节奏特征有节拍,节奏和脉动清晰度。不同的音乐表达着不同的情绪。Aathreya等人在其研究中基于Thayer情感模型,选取了快乐、旺盛、精力充沛、疯狂、悲伤、忧郁、冷静、知足8种情绪,提取了节拍、节奏、音高、过零率等音频底层特征,根据音乐所表达的不同的情绪对歌曲进行分类,分类效率最高达到94.44%。Katsunori Arakawa等人在其文章中研究了听众的喜好与音乐特征间的关系。其选用的音频特征就是节奏特征。研究结果表明听众喜欢的音乐往往集中在某些音乐特征轴上,此外,这些特征轴随着听众与艺术家的不同而改变。节奏特征还用来对音乐情绪分类。Emiru Tsunoo等人提出了一种从音乐中提取出节奏和低音线特征的单元模式,将这一单元模式与统计特征提取相结合来对情绪进行分类。实验结果表明自动地计算这一单元模式信息可以有效地用来对音乐情绪分类。脉动清晰度决定了节奏的周期性强度及音乐信号的脉动强度,其传递着如何使听众可以轻易的感知音乐底层的脉动的信息。Santosh Chapaneri等人提取音乐的力度特征、节奏特征、音色特征、谱特征,其中节奏特征中就选用了脉动清晰度特征,利用CFS选出重要的特征后对500首歌曲进行流派分类,这500首歌曲共有5个流派,分别为电子、爵士、流行、嘻哈、摇滚,最高的分类准确率达到了82%。
  3 音色特征与听众情绪及评价的关系
  音色特征同样也是重要的音频底层特征。声音的明亮度影响着听众的情绪。明亮的音色再加上响亮的声音会让人产生活力,动荡,冲突和豪迈的情绪;同样的音色若是加上轻柔的声音则会诗人产生敏感的、热情的、悲悯的情绪。低沉的音色搭配轻柔的音乐更能激发听众的共鸣感。在不考虑节奏的饱和度的情况下,音色可以刺激听众的能量水平。此外,音频信号的过零率(zero crossing rate,ZCR)在上文所提到的语音情感识别的研究中也是一个常用的底层特征,愤怒的情感相比于愉快的情感具有较高的震动均值。
  4 音高特征与听众情绪及评价的关系
  除上述几种特征外,音高特征(pitch)也是人们常用来进行音频情感识别的特征。Wu liang提出一个新方法用于语音情感识别,该方法是基于多类分类器,使用声学的韵律信息和语义标签对中性、愉快、愤怒和悲伤四种情绪进行识别。文中用于情绪识别的音频特征中有音调、梅尔频率倒谱系数、强度等,其采用元决策树(Meta Decision Tree,MDT)将高斯混合模型、支持向量机和多层神经网络三种分类器进行融合来提高识别的准确率。研究结果表明使用MDT可以使识别的准确了达到80%,单独使用LS其平均准确率为80.92%,若将AP和LS结合使用则准确率可以达到83.55%,要高于单独使用AP或LS进行识别。Shashidhar等人也采用音高和vowel onset points进行愤怒、害怕、高兴、中性以及悲伤5种情感进行识别,以高斯混合模型作为分类器,对数据库IITKGP-SESC和Emo-DB进行对比,对两个数据库的情感识别的准确率分别为92%和89%。
  鉴于上述分析,可假设音乐视频的频谱特征、节奏特征、音色特征和音高特征对听众的情感状态有影响,但是应该考虑哪些具体的特征呢?通过阅读大量阅读参考文献,选取频谱通量、频谱质心、梅尔频率倒谱系数、音符密度、节奏、脉动清晰度、声音明亮度、过零率、音调9个音频底层特征。
  参考文献:
  [1]孙科.中国民族音乐特征提取与分类技术的研究[D].上海:东华大学,2011.
  [2]孙鹏玉.波形音乐文件特征提取方法的研究[D].大连:辽宁大学,2013.
  项目:吉林农业科技学院青年基金项目:吉农院合字[2018]第3013号
  作者简介:孙晓雪(1988-),女,满族,吉林吉林人,硕士,讲师,研究方向:机械电子。
其他文献
目的:探讨Ad—HGF转染对HepG2生长抑制作用的影响。方法:用Ad—HGF转染HepG2细胞,检测HGF蛋白表达及对细胞凋亡的影响;并用裸鼠致瘤试验体内观察Ad—HGF对HepG2细胞致癌的影响。
患者,女,14岁,因左眼下睑浮肿,皮下无痛性肿块3月而就诊。3月前无明显诱因出现左下睑皮下出现一黄豆大小的肿物,近1月来发现新生物迅速生长,同时在左侧颞部皮下出现数个大小不等的
摘 要:近年来,我国经济水平突飞猛进,IT行业也随之迅速发展,IT技术在人们日常生活中的运用也越来越广泛,如何最大限度地发挥计算机的作用和效能,是如今计算机发展所需解决的问题之一。因此,对计算机系统以及计算机网路进行优化是十分有必要的。而動态优化则是对计算机系统网络进行一系列配置、资源合理分配以及任务科学调度的理论性手段。本文章则正是对马尔可夫决策从模型、决策再到具体应用层面对计算机系统和计算机网
2002—05~2007—05共收治阔韧带肌瘤患者18例,经超声诊断手术病理证实,误诊率达38.9%。现将误诊原因分析如下。
门诊服务是一项系统工程,应从医学、伦理学、心理学和管理学的角度打造,以方便就医患者为原则去完善各项服务。团队文化的塑造、就医流程的优化以及非医疗技术服务质量的不断提
“八簿一卡”是指实验室规范管理过程中需要收集归档的信息材料;“八簿一卡”在实验室规范管理过程中发挥了重要作用,通过“八簿一卡”可以全面了解实验室的管理情况。对基于网
以山东农业大学加强管理入手,提出建立国家级实验教学示范中心的思路和体会。
通过总结性回顾对2002—01~2008—10期间采用腹腔镜胆囊切除、胆总管切开、内置管引流术治疗慢性胆囊炎、胆囊结石合并胆总管结石的30例较为典型的病例,对其护理方法进行探讨,取
2006—01~2008—12我院内镜室经内镜十二指肠乳头括约肌切开术(EST)治疗胆总管结石62例,取石成功率96.8%,疗效满意,现总结如下。
介绍了电气类开放实验教学平台的建设与实践,结合实际提出了平台的建设理念与建设模式,并就平台基本结构、平台主要建设内容、平台特色与创新点、平台的教学与研究功能、开放式