【摘 要】
:
语音是人类交流最常见的信息载体,并且随着智能化技术的发展,语音在人机交互中起着至关重要的作用。声纹识别,其本质是利用说话者的语音信息识别出说话人的身份。作为生物特征识别和认证领域的一个重要分支,声纹识别在刑侦排查,人机交互验证,考勤系统等方面有广泛的应用。声纹识别系统主要由语音特征提取和识别模型建立两部分构成。说话者的语音中包含个性信息和共性信息,个性信息差异主要是由发声器官的差异,发音习惯的不同
论文部分内容阅读
语音是人类交流最常见的信息载体,并且随着智能化技术的发展,语音在人机交互中起着至关重要的作用。声纹识别,其本质是利用说话者的语音信息识别出说话人的身份。作为生物特征识别和认证领域的一个重要分支,声纹识别在刑侦排查,人机交互验证,考勤系统等方面有广泛的应用。声纹识别系统主要由语音特征提取和识别模型建立两部分构成。说话者的语音中包含个性信息和共性信息,个性信息差异主要是由发声器官的差异,发音习惯的不同造成的,共性信息则取决于语音文本。语音特征提取是为了提取语音中的个性信息,其常用的语音特征有梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知线性预测(PLP)和语谱图等。在识别模型方面,高斯混合模型(GMM)的识别性能优良而被广泛使用。近几年来,卷积神经网络(CNN)被引入到声纹识别中,并取得了不错的研究进展。然而采用这些单一特征和单个识别模型的声纹识别系统,其准确率仍不能满足一些领域的高准确性需求。基于以上研究难点和重点,本文研究内容主要包含以下几个方面:1.针对单一特征在识别中准确率不足的问题,本文使用Fisher准则对常用的多维语音特征PLP、LPCC、MFCC进行维度上的筛选,并且加入基音频率、谱质心等单维特征,获得新的融合特征参数,并且使用GMM作为识别模型进行了对比实验,效果最优的融合特征PLP-LPCC-PF-SC识别率达到了 94.37%,相较于传统的 PLP、LPCC 和 MFCC 特征提高了 6.92%、12.79%、13.58%。2.针对单个识别模型在识别中准确率不足的问题,本文提出了一种模型联合方法。通过分析高斯混合模型基于投票的决策结果,使用训练样本获得阈值参数,并利用阈值参数设计分割函数,以此对两个GMM集合进行联合。通过分割函数对第一个GMM集合的识别结果进行决策,在最大程度上筛选出分类错误的测试样本并将其输入到第二个GMM集合再次识别。在保证两个GMM集合输入语音特征参数不同,并且都具有良好的识别性能前提下,两个GMM集合在识别能力上可以进行互补。第二个GMM集合能对第一个GMM集合的识别结果进行校正,从而提高系统整体的识别准确率。通过实验证明,GMM联合识别率达到了95.63%,较单GMM集合提高了 1.26%。3.为了充分体现不同的语音特征参数和不同的识别模型各自的优势并使其进行性能上的互补,本文使用上述提到的融合特征参数对GMM进行训练,使用语谱图对ResNet进行训练,并且在ResNet中引入长短期记忆网络(LSTM)和注意力机制(Attention),通过模型联合方法将两个识别模型进行联合,最终识别率达到了 95.87%,相较于两种类型的单个模型均有提升。本文主要从语音特征提取和识别模型建立出发,在标准的TIMIT语音数据库进行了大量实验,取得了不错的实验效果,验证了本文提出方法的有效性。
其他文献
为了保证移动机器人长期稳定的工作,能够实时得知其位置信息的导航系统就变得非常重要。现如今,随着计算机技术的不断进步,视觉SLAM技术取得很大突破,受到众多学者青睐。单目视觉SLAM由于其体积小易安装的优点,成为视觉SLAM领域研究的重点。然而单目相机本身存在尺度不确定的问题,本文设计了一种基于视觉的多传感器融合定位系统,将IMU与单目相机数据进行紧耦合方式的信息融合,得到高精度,高稳定性的导航系统
人类进入工业文明这个阶段开始,经济飞速发展的同时环境污染问题也逐渐浮出水面,最突出的是人类在认识社会和改造社会过程中产生的水体、大气、土地等污染,而重污染行业企业污染物排放是我国环境污染的排放源之一,现阶段社会各界也逐渐关注企业的环境义务承担情况。企业管理者环保意识淡薄,环境信息披露要求不统一等等原因导致企业污染事件频频发生。本文通过研究环境信息披露对财务绩效的影响,以期促进排污企业承担环境责任,
我国国内经济和居民生活水平在近几年快速提升,促使人们持续增强投资理财观念,并不断提出新的金融需求,因此需要商业银行对客户心理和需求方面的改变及时掌握,对客户关系有效
目的:卒中已成为一个全球性的严重问题。柳叶刀神经学杂志发表的研究显示,1990年至2016年,卒中全球年龄标准化发病率下降了 8.1%,而我国却上升了 5.4%,居世界首位。2016年全球因卒中导致死亡人数达550万,其中我国死亡人数约197万,占1/3以上。在存活患者中,约有3/4不同程度地丧失劳动能力,重度致残者约占40%。我国急性脑卒中患者第1年复发率达17.7%,5年累积复发率在30%以上
烷基化油具有辛烷值较高、挥发性低、不含芳烃和烯烃、几乎不含硫等优点,是最理想的清洁汽油组分。硫酸烷基化技术在安全性与可操作性之间达到了最佳平衡,成为当今炼化企业的首选。本文以降低反应温度、提高选择性、降低酸耗为目标,按照小试实验、反应器开发、中试装置初步设计的顺序,完成了低温硫酸烷基化技术开发的探索性研究。自行建立了一套烷基化反应小试实验装置,能够实现酸烃两相的充分混合与迅速移热。考察了酸烃体积比
随着社会经济的迅速发展,资源的合理开发和利用不仅关系到种群持续生存问题,而且与社会的可持续发展问题相关,种群资源的开发问题受到越来越多人的关注,在对其开发与利用过程中,如果可以把生态效益和经济效益有机结合起来,那么就能使得种群资源更长地为人类所利用.近年来,生物种群资源的开发管理问题已成为广大学者讨论研究的热点.2014年,A.Moussaoui等人提出了在水位影响下的捕食-食饵的动态模型,结合实
近年来我国移动端设备不断普及,移动端应用数量突飞猛进,互联网社交逐渐成为民众一种重要的社交方式。在互联网社交中,社交类游戏又是一个在快速发展的领域。社交类游戏主要是为了发展用户之间的互动交流而设计,一切以人为中心,围绕着用户的社交进行拓展。社交类游戏具有种类多、简单易玩容易上手、开发维护简单的特点,已经成为很多民众非常重要的一种休闲娱乐并参与社交互动的方式。一款优秀的社交类游戏可以极大地帮助商家平
在金属塑性成形领域,大尺寸坯料在高温、大成形力的作用下,极易在锻件心部或表面产生裂纹,研究表明其主要开裂形式为韧性开裂。而目前现有的韧性开裂准则大都应用于预测冷变形的基础上,对于热变形过程中材料损伤开裂的行为研究仍缺乏普适的判据。本课题针对核电主体材料铸态SA508-3低合金钢的损伤演化行为开展研究工作,通过热模拟基础实验从宏观和微观两个方面分析损伤萌生到开裂的整个过程,基于损伤累计准则建立了考虑
本研究在河北工程大学开展了56种挥发性有机物(VOCs)、氮氧化物(NOx)、臭氧(O_3)的长期在线监测,选取2017年9月-2018年8月在线监测数据,重点分析了邯郸市VOCs、O_3和NOx的污染特征、VOCs的主要来源、VOCs对O_3生成的影响以及8种有毒有害VOCs对人体健康的影响,主要得到以下结论:(1)监测期间,烷烃、烯烃、炔烃均呈冬季高夏季低的污染特征,芳香烃浓度秋季略高于冬季,
地下变电站由于环境协调性好,站址选择难度低等优势,成为大城市所需求的变电站类型。但是放置在地下变电站楼板上的电抗器在运行过程中产生的振动荷载可能会对建筑及工作人员产生影响。本文以某地下变电站为研究对象,对电抗器振动荷载作用下变电站建筑结构的振动响应进行了数值模拟研究。本文的主要研究内容包括以下几个方面:(1)通过搜集振动控制相关规范标准进行研究,得到一个适合地下变电站建筑的限值规定。(2)利用AN