说话人识别中的特征参数提取和识别算法研究

来源 :南京理工大学 | 被引量 : 2次 | 上传用户:quanminyingyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算,大数据时代的到来,移动环境下的多模态自然人机交互,包括面向服务机器人的语音交互需求,对话系统及安全验证系统,都对当前的说话人识别技术提出更大的挑战。互联网时代对数据分析提出了更高的要求,分析的颗粒度越来越小,对用户行为数据的分析也越来越关键。得益于丰富多样的终端存储与处理,语音作为人类获取信息最有效、最自然的方式,其采集保存与应用变得越来越方便,智能语音交互和安全验证受到更为广泛的关注。说话人识别是通过对说话人语音信号的参数分析和特征提取,依据训练的说话人特定模型进行待测语音的身份认定。本文首先对说话人识别课题的研究意义及发展历程等进行了综述性的介绍,并指出了当前说话人识别领域的研究热点和难点问题。在前人取得的研究成果的基础上,针对说话人识别任务,在端点检测预处理,鉴别性特征提取和识别算法三个环节进行了系统且较为深入的研究,设计了文本无关的说话人识别实验系统,包括对语音片段端点的检测模块、预处理模块、针对鉴别性分析的特征提取模块和多种创新性识别算法模块,并进行了充分的理论分析与实验验证。主要创新性工作如下:1.提出了一种多层次框架的鲁棒性语音端点检测算法,该算法的优势在于充分考虑各种特征的特性将多种特征方法有机结合在一起,并引入了投票机制,保证了算法在不同噪声条件下的鲁棒性,提高了低信噪比情况下的端点检测精度。该算法由三个模块组成,在语音增强模块中,首先利用判决引导方法估计先验信噪比,然后利用改进的维纳滤波方法进行噪声抑制;在特征提取和投票模块中,分别提取多种具有鉴别意义的短时特征。鉴于部分特征更适合特定的噪声条件,因此采用投票的模式增强特征的可靠性和辨别能力;在分类模块中,采用两个标准语音数据库训练的不同信噪比下的SVM模型,最后采用“one-against-one”的方法来有效确定语音/非语音段。在不同类型噪声条件下,信噪比20dB时,语音/非语音的平均正确检测率可以达到97.8%。2.提出了两种用于说话人识别的鉴别性特征提取方法。首先鉴于说话人个性信息在不同频带呈不均匀分布的原理,基于F-ratio值来衡量不同子频带对说话人个性信息的区分度,通过实验数值分析及量化,设计非均匀滤波器,提取非均匀鉴别性特征,在仿真实验中,NUFCC特征的识别率比MFCC特征平均提高了 2.23%,表明该特征作为针对说话人识别任务提取的特征,能够有效利用不同子频带的信息,改善系统的性能,具有良好的区分性。其次提出提取汉语单字音节特征的方法,该方法基于经典的语音帧特征分析理念,结合汉语自身的音节结构和发音特点,对语音帧序列进行进一步处理,找到单个汉字的典型帧序列,然后将帧序列的特征矢量进行拼接得到该字的特征矢量。这种以单字为单位提取的特征矢量能更为集中地反映说话人发声过程中的典型特征,去除边缘信息的鉴别干扰,并且能更好地表征说话人单字发音中相邻语音帧之间的连续性。3.提出了基于环域采样和集成策略的k近邻说话人识别算法,充分利用特征矢量的空间分布特性,采用基于环域处理的分层采样方法,以语音信号特征矢量的环域搜索代替传统的全局搜索方式,可以减少运算量,加快搜索速度,实验结果表明,基于环域的分层采样算法在识别阶段速度提高了 5.1~5.5倍,对识别率的影响很小。进一步在集成学习策略中,提出利用概率准则生成训练集的算法。该算法(命名为BagWithProb)随机产生集合的样本中心,根据概率分布关系选择新样本,逐步加入当前集合,生成新的训练集。该方法可以确保训练集之间较大的差异性,进一步提高识别系统的泛化能力,在15s的训练数据下,BagWithProb策略下的集成系统的帧平均识别率可达94.1%,说话人分类的最终判决取决于测试语音的所有帧的识别结果,因此个别帧的识别错误对总的识别结果的影响较小,所以本文提出的基于环域采样和集成策略的众近邻说话人识别算法能在基本不损失识别精度的前提下,大大提高识别速度,并且改善系统的泛化能力。4.提出了深度置信网络在说话人识别方面的两个角度的应用,在深度学习理论指导下,一个角度是采用DBN网络作为分类器实现模型建模,通过DBN的训练,对输入的频谱特征进行建模,识别阶段,利用训练好的DBN网络实现识别任务。实验结果表明,不同测试文件类型下,当测试时长达到5s以上,隐层数为4时,平均识别率能达到97.13%,验证了使用深度置信网络实现说话人识别的可行性与有效性;另一个角度是利用DBN网络的训练提取Bottleneck特征,并将该特征作为后续的传统识别模型的输入,实现说话人识别。Bottleneck+GMM算法在测试时长是6s情形下的识别率平均达到99.04%,表明该算法在干净语音条件下已经可以达到非常好的性能,并且在训练语料有限的情形下,Bottleneck+GMM算法的平均识别率比MFCC+GMM提高了 5.35%,实验验证了 Bottleneck特征在与传统模型相结合的过程中,性能一直稳定地优于MFCC特征,证明了利用DBN网络提取的Bottleneck特征虽然不如MFCC特征那样有较为清晰的物理意义解释,但能更有效地提取到说话人鉴别信息,得到一个精简而且具有很好鉴别性的个性表征,从而改善识别系统的性能。
其他文献
近年来,随着国民经济的快速发展和电力电子技术的广泛应用,电力谐波对电力系统的安全、稳定、经济运行产生了极大的影响。因此对电网谐波的检测与分析具有重要的意义。以TMS320F2812为系统控制核心,选用ADS8364作为系统数模转换器,开发了谐波分析系统,能够对三相电网3路电压、3路电流进行同步采样,运用FFT算法进行数据处理,在LCD上显示频谱,还具有数据上传功能。本文完成的主要研究工作:1)详细
本文以非线性系统为研究对象,在前期提出的多模型主动容错控制思想的基础上,将逆系统方法与多模型方法相结合,采用最小二乘支持向量机(LS-SVM)离线或在线建立系统逆模型,运用
近年来随着风能、太阳能等可再生能源发电的大规模应用,电力系统对储能技术的需求越来越强烈,因此储能技术在电能发展中不再只起到锦上添花的作用,而逐渐成为一种必须。超级
随着环境污染问题越来越受到重视,LNG (LiquefiedNatural Gas)作为一种清洁能源受到越来越多企业的青睐。由于LNG具有易燃、易爆的特点,LNG气化站安全等级要求很高。因此,构
电力谐波自交流电产生之日起就一直存在着。随着科技的发展,越来越多的电力电子装置的使用造成电网中谐波的污染日益严重,给整个供电系统和电网中的用电设备造成了严重的安全隐患。同时近些年来,随着国家经济的发展各种高精度的电子仪器进入生产生活领域使得各行各业对供电质量的要求不断的提高。因此实现电力系统参数快速、准确的测量具有很高的安全和经济价值。本论文就是针对电力系统谐波测量的实际要求而提出的设计方案。针对
随着我国电力系统的发展,微机保护技术也得到了快速的发展,所以说微机保护仿真的研究是非常重要的。由于故障停电会造成一定的不利影响,电力系统安全可靠的运行,有着十分重要的意义,而微机保护装置具有将电力系统由于故障而造成的损失减小到最小的作用。变电站是电力系统的主要组成部分,也是联系发电厂和用户的中间环节,起着变换和分配电能的作用。在电力系统中,除应采取措施消除或减少发生故障的可能性外,必须保证,故障一
激光视觉焊缝跟踪是焊接智能化的关键技术之一。国外自上世纪70年代末即展开研究,至今已推向实际应用,而国内无论是关键技术,还是系统实现均存在较大差距。本研究在江苏省重
我国学位授权点实行定期评估制度,以达到加强学术队伍建设、增强科研创新能力、提高学生培养质量的目的。基于以上要求,本文建立了理工类学位授权点科研业绩评估模型及管理系
学位
直接浸出工艺砷盐净化的主要目的是通过添加锌粉除去中性上清液中的杂质离子,为电解提供合格的新液。钴是危害最大也是最难除的杂质,钴的存在不仅影响电解的电流效率,而且还