基于音频参量的特征选择及分类研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:liongliong470
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,音频正以不同的数据类型融入到当今的计算机网络中。其中,对音频信号识别、分类的相关研究产生了一系列智能化的分类应用系统。通过对已有音频分类相关文献的研究和分析,发现音频信号中两类最常见的语音和音乐信号在分类过程中仍存在以下问题:当分类系统中所用特征参量较少时,分类准确率有待提高;当所用特征参量较多时,尽管准确率较高,但存在因特征维数较高导致的分类实时性有待提高。此外音乐信号作为音频数据中的重要组成部分,其量大、类型丰富的特点使得用户在找到自己喜欢的音乐时需要花费大量的时间。而作为音乐的高级标签,音乐流派提供了一种有效的音乐检索方法。针对音乐流派分类,现有研究大多基于深度学习在公开数据集上进行相关研究,但当前的深度学习模型在音乐流派分类领域的准确性还有较大的提升空间,同时当训练集较小时很难得到一个性能较优的模型。针对以上问题,本文进行了以下研究:1.针对语音和音乐信号分类问题,提出了一种仅提取两个特征参量且未用分类器的分类模型。实验结果表明,该模型在语音音乐分类中较最多只提取两个音频特征且未用分类器算法的准确率平均提高约7.9%,较提取多个音频特征且采用分类器算法的准确率平均提高约5.7%。证明了该模型在提取特征量少时,仍能提高一定的分类准确率。2.在基于深度学习技术对音乐流派进行分类的研究中,将音频信号可视化(转换为对数梅尔频谱图),利用注意力机制能为图片不同部分赋予不同权重,可以明确捕获并利用输入和输出项之间固有对应关系的优点,选择对分类贡献较大的特征参量。3.利用原型网络在样本数据较小时仍能较准确识别出当前信号所属类别的优点,将其与注意力机制相结合的模型应用于公共数据集GTZAN中。实验结果表明,单一原型网络分类准确率已达90%以上,结合注意力机制后对应准确率均提高1%-2%,且模型收敛速度较快。证明了该模型在GTZAN数据集上的有效性。
其他文献
大数据技术水平的不断提升催生了政府开放数据的蓬勃发展,政府开放数据以其数量庞大、种类繁多、体系完善的特点广泛受到世界上各个国家的高度重视,我国也在政府开放数据实践
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动式的对地观测系统,具有全天候对地观测和地表穿透能力,可安装在飞机、卫星、宇宙飞船等飞行器上。因此,SAR系统在灾害监测、农作物估产、测绘和军事等方面具有独特的应用优势。然而,SAR系统成像机理的特殊性,不同粗糙程度造成的物体表面发生的后向散射带来的图像成像多样性,致使SAR图像的处理会异常困难。SAR图像高精度分割在
在磁流变平面抛光过程中,抛光力是反应磁流变抛光加工过程的重要物理量,而抛光机的结构限制使得抛光力无法直接被采集到。本文结合运用有限元方法、系统辨识理论和信号分析与处理等方法,针对磁流变平面抛光过程中抛光力的分析与提取展开研究。对磁流变平面抛光机工件承载装置进行有限元建模,通过系统的动态响应性能分析,获得工件承载装置系统的频率响应数据。运用系统辨识理论及方法,对工件承载装置系统的频率响应特征进行分析
随着3G和4G通信技术的成熟和普及,通信塔作为通信系统的重要组成部分其数量在迅速地增加,为了方便信号的收发,通信塔通常都建在较高的山地或者较空旷的区域,导致其容易遭受雷击的影响,而塔内通信设备如果处于恶劣的电磁环境中则易造成误操作或永久性损毁的后果,因此,对通信塔在雷电作用下的空间电磁场分布特点展开相应的研究和分析就显得尤为重要,这能够为通信塔及电子设备的防雷保护提供相关的理论数据支撑。本文首先对
三聚氰胺(Melamine,C_3N_3(NH_2)_3)是一种三嗪类含氮杂环有机化合物,由于其氮含量高(66.6%),常被非法添加到牛奶和各种乳制品中。三聚氰胺难以代谢,动物或人食用过量后会产生不同程度的肾衰竭,严重的甚至会导致死亡。因此,研究简单、快速、低成本、方便和高灵敏度的方法来检测三聚氰胺十分必要。本文设计了一种快速无标记检测三聚氰胺的传感器,实现对三聚氰胺的高灵敏度的检测,其主要研究内
考虑到不同地区发展及资源分布的差异化,在实际发生突发事件的时候,我们需要尽快从各地运输救援物资到灾区。而往往在救援工作中,救援物资的调配和运输存在不合理的地方,这些问题的存在必然会影响应急救援工作的效率。本文研究多代理系统在分布式群组决策过程中的应用正是为了解决复杂的多目标优化问题。因此本文就解决突发事件中应急物资供应链管理工作进行较为深入的研究,结合多代理系统、分布式数据存储、群组决策理论建立了
近几年来深度学习得到发展,在机器视觉、文本文字、语音处理和医疗影像检测等方面获得了许多丰硕的成果。在各个不同类型的深度学习神经网络中,其中卷积神经网络由于提取图像特征的能力十分强大得到了最深刻的研究,这不仅体现在理论上研究的繁荣,更在商业活动和工业生产中有着巨大的影响。目标检测作为图像分析的基础,它是机器视觉领域重要的研究方向,目标检测是对图像中检测目标所在的位置区域进行精确定位并判断检测目标所属
私募股权基金在我国走过了近20年的历程,为金融市场的发展做出了突出的贡献,已逐步从野蛮膨胀阶段进入理性发展期。根据组织形式的不同,私募股权基金可以分为公司型、有限合伙型、信托型。随着《信托公司集合资金信托计划管理办法》、《信托公司管理办法》等文件的出台,信托制私募股权基金逐渐进入人们的视野。信托制私募股权基金是依托信托制度而设立的私募股权基金,它既有信托的某些特征,又与私募股权有很多类似之处,私募
高分辨率图像画面清晰、包含信息丰富,但是实际生产生活中得到大多数是携带信息少、尺寸较小的低分辨率图像。而低分辨率图像主要缺失了高频细节信息,导致对其后续的目标检测问题一直难以解决。低分辨率图像重建技术能恢复低分辨率图像缺失的高频细节信息,所以为低分辨率目标检测问题的解决提供了可能。本文重点关注基于深度学习的低分辨率图像目标检测算法,主要做了以下工作:本文基于多尺度残差网络(MSRN)提出了一种多尺
随着互联网和移动学习媒体的日益普及,外语教育的发展正面临着从传统学习向泛在学习的新转变。作为一种新型学习方式,泛在学习者可以根据自己的需求,充分利用智能终端设备随时随地地进行自由式、自主化的学习。但是泛在学习不同于传统的英语课堂,学生离开教师的直接指导而进行独立学习,他们想要获得较好的学习效果,就需要良好的学习策略为支撑。初中生处于英语学习的黄金阶段,很多学习习惯和思维习惯都是在此期间形成的,那么