基于深度学习的环境声音分类和声纹辨识应用研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:z1348891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境声音分类和声纹辨识均属于音频信息处理范畴。环境声音分类是应用信号处理、计算机及人工智能等技术对特定环境声音信号进行分析处理并实现对声音信号自动分类辨识,被智能家居、场景分析和智能监控等领域广泛应用;声纹辨识就是从已知的声纹集合中找出与特定音频声纹相匹配的那个人,广泛应用于刑事侦探、智能监控、金融安全等领域。随着人工智能技术的发展,环境声音分类和声纹辨识越来越受到业界研究者的关注。早期的环境声音分类采取信号处理和机器学习方法,随着卷积神经网络(CNN)的提出,现在的环境声音分类多采用CNN模型,但存在模型结构和网络深度不一的情况,缺乏统一指导原则,给学习者造成很大困惑。与环境声音分类相比,由于声纹数据具有类内不紧凑、类间差距小的特点,声纹辨识技术要求更高,已有的CNN分类函数softmax存在分类效果不佳的问题。针对这些问题,本文主要研究工作如下:1.针对Piczak和Zhang提出的CNN模型在环境声音分类中网络结构不一、网络深度过浅或过深进而导致模型欠拟合或过拟合的问题,本文通过对比实验找出CNN模型结构及相关参数设置原则,同时找到一个相对较优CNN模型,为环境声音分类应用提供参考。本文首先探讨了Piczak和Zhang的CNN网络结构中卷积层和池化层数量及网络深度,然后调整两者的网络结构中卷积核大小和数量,最后通过对比实验探讨不同结构和网络深度下的优化效果,从而得到最优的网络结构模型Changed CNN及其相关参数设置。Urban Sound8K公开数据集上的对比实验结果表明优化后的Changed CNN模型结构具有一定改进效果,在网络深度和结构设置适中时,准确率相较Piczak和Zhang的网络模型有一定提升。2.针对已知的单一CNN声纹辨识分类模型内置的softmax分类器处理类内不紧凑、类间差距小声纹数据效果不佳的问题,提出了CNN+Light GBM的声纹辨识组合模型。组合模型在使用CNN提取音频数据高层次特征的基础上,比较了各个常用的不同分类算法,将CNN内置softmax分类器替换为Light GBM分类器,对分类算法进行了推导。公开数据集Voxceleb2上的对比实验结果表明:CNN+Light GBM组合模型分类准确率不仅优于单一的CNN模型,也优于CNN+其他分类算法模型,证明了本文提出的CNN+Light GBM组合模型的合理性。
其他文献
随着互联网、大数据、云计算的迅猛发展,信息技术与金融行业实现了前所未有的深度融合,依托互联网作业的“互联网+”作为一种新型经济形态对传统金融行业产生了巨大的冲击和影响,包括作为三大金融支柱(银行、证券、保险)之一的保险业。近年来,愈来愈多的传统保险企业将“互联网+”当作转型升级的加速引擎,“互联网+”在颠覆传统保险的商业模式、经营观念、销售渠道和管理流程的同时,也改变了关于险企和顾客的互动。互动包
在竞争日益加剧、市场快速变化的国际经济环境下,搭建高效的物流体系成为企业提高竞争力的“第三利润源泉”。越来越多的企业已经或者正在计划着将物流运作外包给专业物流公
环氧树脂具有优异的电气性能和机械性能,作为高压电气设备的绝缘材料被广泛使用。然而在电气设备运行过程中,电荷会积聚在绝缘材料表面,当电荷量达到阈值时,会发生沿面闪络现象,影响设备正常运行。因此十分有必要采取有效方法,减少绝缘材料电荷积聚,提高闪络电压。涂覆涂层作为一种方便高效的方法,在提高环氧树脂绝缘材料电气性能上具有广阔的应用前景。本文通过等离子体氟化的方法对纳米SiC和纳米AlN进行处理,制备了
基于国家政策的帮扶和地理优势,东部沿海地区的经济得到了发展。吸引了大部分中西部地区剩余劳动力进城务工,从而也引发了一系列的社会问题,尤其是外来务工人员随迁子女的教育问题,近年来逐渐引起了社会的关注。对“乐清市外来务工人员子女义务教育公平问题研究”的调查研究,可以从教育起点、教育过程、教育结果三个方面进行研究,这种义务教育的不公平主要表现在教育起点机会不均等、教育过程中享受的资源及配置的差异性显著、
目的:凶险性前置胎盘(PPP)是产科危重症之一,常会造成产妇难以控制的大出血,以致切除子宫、损伤周围脏器、甚至孕产妇死亡以及新生儿医源性早产、窒息等不良母婴结局。因此术前对其客观地评估有利于科学地制定个体化诊疗方案,启动必要的多学科管理(MDT)模式,从而保障母婴安全。本研究通过回顾性分析胎盘植入超声评分系统引入前后凶险性前置胎盘患者的治疗方案和结局,探讨该评分系统在凶险性前置胎盘分层管理中的价值
目的:通过对天津市缓和医疗(palliative care,PC)机构进行实地走访、对缓和医疗从业人员进行问卷调查,了解天津市缓和医疗现状,了解缓和医疗机构从业医务人员对缓和医疗的认知,在此基础上分析天津市缓和医疗发展存在的问题,针对问题提出相应对策,为进一步完善缓和医疗内容奠定基础。方法:采用自行设计问卷调查的方式进行调研,对天津市60家社区卫生服务中心进行电话访谈,对16家卫生机构进行实地走访
随着军事科技的快速发展,军事目标的电磁散射特性分析、设计、识别变得尤为重要。积分方程作为电磁场中计算结果精度较高的一种数值方法,在计算电磁散射方面得到了广泛的发展
近年来,随着经济的发展全球石油和化石燃料的消耗逐年上升,随之而来的环境问题引起人们关注,寻找可替代当前介质能源和发展和绿色环境友好型经济方式已经迫在眉睫,化学电源由于其自身的优点在能源领域引发科学工作者和企业的兴趣,锂离子电池作为一种二次电池具有很多优点。例如:电压高、比能量大、长循环寿命、成本低等优点成为研究热点,开发出更高性能的锂离子电池成为主要任务,锂离子电池是由正极活性物质、负极活性物质、
随着互联网技术的普及,网络书店在日常生活中越来越普遍,凭借着方便快捷的服务、低廉的价格,京东商城、亚马逊、当当网、天猫商城等网络平台走进了越来越多的消费者生活中,对实体书店的发展造成了极大的冲击,可以说,渠道的争夺已经关系到企业的销量和发展,渠道直接决定着销量,对于S民营书店(下文简称S书店)来说,渠道管理的好坏,渠道策略的优良更是发展的关键所在。本文以S书店作为研究对象,做了如下工作:第一,结合
随着移动终端普及和互联网技术的快速发展,使得信息业务数据量呈现几何级数的爆炸性增长,从而进一步加剧了“信息过载”的问题,已成为互联网技术继续发展的严重阻碍。现有基