基于GMM的说话人识别技术研究与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:genggeng07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是指通过说话人的语音自动鉴别说话人身份的技术,它是生物认证技术之一。与其他生物认证技术相比,具有数据采集简单,能实时识别,远程识别等优势,能够广泛应用于各种身份鉴定领域如门禁系统,密码系统,数据库系统,电话银行系统等。目前,说话人识别的方法主要有模板匹配,矢量量化(VQ),人工神经网络(ANN),隐马尔科夫模型(HMM)和高斯混合模型(GMM)等。GMM方法与其他方法相比,具有独特的优越性,特别是对于文本无关(Text-independent)的说话人识别系统。研究表明,GMM在文本无关的说话人辨认和说话人确认中都取得了较好的识别效果。在系统构建方面,本文利用VC++实现了一个完整的说话人识别系统,包括前期的语音处理,特征提取以及后期的模型训练,识别。实现了说话人识别的两大功能:说话人辨认和说话人确认。在前期语音处理和特征提取方面,使用了Mel倒谱系数(MFCC)作为特征参数,它与线性预测倒谱系数(LPCC)相比,能更好的体现人耳的听觉特性。在说话人模型方法,采用了高斯混合模型,它使用不同高斯密度的叠加来反映语音的声纹特征。在性能研究方面,研究了不同高斯混合密度下说话人辨认系统的识别率,认为高斯密度个数的选择与训练语音数据量相关。本文还着重研究了高斯混合模型的训练方法,分析了语音长度对最大似然法的影响;分析了模型初始迭代法的特性,认为它在嵌入式系统中能够有较大应用空间;分析了区别性训练与非区别性训练的优缺点,证明了区别性训练能更好的区分各个说话人模型,取得更好的识别效果。在系统改进方面,由于说话人辨认系统已经很成熟,本文着重研究了在说话人确认方面的改进。说话人确认系统的关键是训练一个好的冒充者模型,针对特定背景模型和通用背景模型的优缺点,提出了改进的归一化背景模型方法,并且通过实验证明了改进后的方法能有效降低确认系统的等错率。
其他文献
随着无线通信和移动计算技术的发展以及越来越高的宽带接入要求,WMN(Wireless Mesh Network)技术受到了广泛的关注。然而WMN在设计之初,考虑的主要目标是快速便捷的组网和网
人类社会是整个自然界的一个特殊部分,众多学者从不同学科对人类社会进行了许多开创性的研究,试图从不同的角度理解人类社会的发展、运动规律。为了研究如此大规模系统的特性和规律,一种新的理论研究方法——复杂网络理论方法,得到极大的发展和应用。自从发现复杂网络具有小世界效应和无标度特征之后,复杂网络逐渐受到了来自科学各个领域研究者们越来越多的关注,成为了近年来科学界的一个研究热点。复杂网络描述方法是建立在对
由于在最优化、信号处理、图像处理、代数方程求解、模式识别和联想记忆等方面的广泛应用,人工神经网络得到了蓬勃发展。神经网络的信息处理能力取决于其动力学行为。因此,神
随着Web应用的日益广泛和Web开发技术的不断发展,开发者迫切需要一种能够简化开发过程,降低开发难度,提高开发效率的框架。目前在Web开发平台中人们使用最多的是J2EE。但随着
在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴
随着我国城市经济建设和社会的快速发展,电力、石油、铁路、邮政、交通等行业对巡检管理工作的要求越来越规范化、科学化、数据化。在安全防范系统方面尤其重要,因此采用先进的
彩铃业务是个性化多彩回铃音业务(CRBT,Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该业务有
IEEE 802.11无线局域网络的使用越来越广泛,其物理层数据传输速率随着技术的发展不断提高,而信道利用率却没有成比例增长。主要原因是传统的接入控制机制(MAC)引入了太多控制
支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的模式识别方法,它是统计学习理论中的结构风险最小化思想在实际中的一种体现。SVM的基本思想是通过非线性变换将输
近年来,随着人类基因组计划的实施以及功能基因组和蛋白质组研究的开展,生物信息学成为生物学和信息科学的研究热点。生物医学文献的数量迅速地增长,没有人能够阅读完如此众多的