噪音环境下的说话人识别算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:sj1020300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们日常生活中交流的主要手段,是获取外界信息的主要来源,同时它本身也包含了说话人特有的信息。充分、有效地利用这些特有信息将为我们的生活带来更多的便利。声纹识别技术将语音作为研究对象,通过提取和分析特征参数从而达到识别的目的。本文首先对说话人的语音进行数字化提取,通过量化、预加重、分帧和加窗的手段对语音进行预处理。语音波形的有音区片段通过端点检测进行查找。对包含背景噪声的说话人语音的语音增强,采用了离散线性卡尔曼滤波,滤波方法在原有的依赖于线性预测系数的基础上做了相关改进,提高了滤波性能。其次,对于表征说话人个性的信息进行了分析和特征提取,包括采用AMDF提取基音周期,利用倒谱法提取第一、第二和第三共振峰;时域内,利用线性分析提取线性预测系数(LPC)和线性预测倒谱系数(LPCC);在频域内,提取基于人耳听觉特性的Mel倒谱系数(MFCC)及其一阶差分。基于已有的特征参数提取算法,部分进行了改进。再次,建立了以单高斯密度函数为基础的高斯混合模型(GMM)用于说话人识别。通过K-means算法对模型初始参数进行估值,K-means算法中通过方差分析来进行初始聚类中心的选定,通过使用三角形法则和聚类中心内区的判定达到加速聚类的目的,在聚类时考虑了孤立点的干扰。在高斯混合数确定的情况下,通过高方差法对特征参数矢量序列进行优化。最后,实验以计算机为硬件平台,Windows 7为软件平台。利用Matlab2012b进行语音采集、预处理、语音增强、特征参数提取、参数训练和识别建模等试验。实验内容涵盖了各个待定数值选择对识别率大小的影响,并通过图形清晰的显示出来。图形表明:当满足测试语音时长为5s,以MFCC、△MFCC与LPCC相结合作为识别参数,GMM混合数为32,训练模型协方差对角阵元素最小阈值为0.1时;识别率较高。同时对于本文所做的算法改进,经实验,结果表明识别率得到了一定提高。
其他文献
手眼视觉测量是空间机器人捕获操作中最关键的部分。在机械臂远离、接近、抓取和操作目标物体的过程中,手眼视觉分别从不同的范围和不同的阶段为控制系统提供位姿信息。本文
现场总线控制系统是新一代的全分布式控制系统,适应了控制系统向智能化、网络化、分散化发展的趋势,具有强大的生命力,它将使控制系统的体系结构以及自动化技术发生一次根本
本文首先介绍了现代汽车电子技术和汽车网络技术的发展,汽车网络的分类,并着重介绍了LIN、CAN、MOST、1394等现有主流的网络技术。第二章详细介绍了LIN网络技术,包括LIN总线的发
柔性交流输电系统(FACTS)是近年来国内外正在研究的一种新型输电技术,它旨在应用电力电子技术的最新成果及现代控制技术,实现对交流系统从潮流到稳定的灵活控制。FACTS技术为电力系统稳定控制提供了新的有效手段。目前,这方面的研究主要包括:FACTS元件在系统中的装设地点;其参数和控制规律对系统动态行为的影响;各种新型控制策略,包括FACTS元件间的协调等。 本文中主要针对FACTS中无功功率
本文的内容是建立在作者在研究生期间实现一个TTS系统工作的基础上的。课题的任务是建立一个基于小语料库的汉语文语转换系统,目前已基本实现。  本文对语音库进行了标注,为
在现代工业生产中,自动焊接和切割技术的运用场合逐渐变多,相对于传统的手工焊接切割来说,它具有较高的工作效率和加工精度,另外,在一些不适宜人工作业的地方,比如某些矿井以
中国加入WTO之后,全球经济一体化的趋势将使中国经济更多地融入世界经济中。从建筑市场来看,更多的国际资本将进入中国,使中国建筑市场竞争更加激烈。同时,中国的建筑企业也
论文首先给出了复杂网络的简单介绍,并对复杂网络中的相继故障这一课题的研究现状作了归纳与总结。在此基础上,论文提出了一种新的基于耦合映象格子的相继故障模型,详细介绍了其
图像特征融合的主要特点是对预处理和特征提取后获取的景物信息如边缘、形状、轮廓和区域等信息后,再进行综合与处理.本文围绕如何能够极大的提高的多光谱影像的空间分辨率的
旅行商(TSP)问题是组合优化领域中的一个典型问题,涉及求多个变量的函数的最小值。虽然它陈述起来很简单,但求解却很困难,并且已经被证明是NP完全问题。但它确实广泛存在,且