基于含噪短语音的鲁棒说话人识别研究

来源 :南京理工大学 | 被引量 : 4次 | 上传用户：zhoujans

【摘要】

：

说话人自动识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果。

【作者】

：

陈英

【出处】

：

南京理工大学

【发表日期】

：

2015年01期

【关键词】

：

说话人识别说话人辨认含噪短语音多特征融合噪声分离语音帧质量判别双重信息质量判别 GMM-UBM三阶段分类模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人自动识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果。然而现实生活中,往往遇到语料缺失、环境噪声等问题,此时说话人识别系统性能严重下降,为了进一步提高说话人识别的实用性,鲁棒性研究是说话人识别领域至关重要的研究热点。本文针对含噪短语音的鲁棒说话人识别技术进行了研究和探索。为了提高含噪短语音的说话人识别率,本文涉及的补偿算法有多特征融合算法、噪声分离算法、语音帧质量判别算法、识别模型优化和改进。本文的主要工作和创新成果点集中在以下几个方面:(1)针对含噪短语音说话人辨认训练和测试语料不充分的特点,将声源信息与声道信息相结合,弥补在语料信息严重缺失的情况下,只提取单一特征不能充分表达说话人语音特征的缺陷。提取的多种特征的噪声鲁棒性和识别能力不同,可以起到互补的作用,并使用差分进化算法优化特征组合中单一特征的融合系数。实验证明,在相同条件下使用特征组合综合系统(MFCC_D_LPCC+ WOWOR4)+(MFCC_D_LPCC+ WOWOR6)+(MFCC_D_LPCC+ WOWOR8)的含噪短语音说话人识别率比使用单一特征MFCC平均提高13.34%,比使用特征组合MFCC_D_LPCC平均提高10.21%。在各种信噪比环境下,使用差分进化算法优化特征组合中单一特征的融合系数可以使系统的识别率平均提高1.62%。(2)为了降低噪声对说话人识别效果的影响,对噪声进行分离是重要的。提出了基于受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)的噪声分离算法用于分离环境噪声,该算法首先使用FastICA噪声分离算法对含噪短语音进行分离,将其结果作为NMF(Non-negative Matrix Factorization)的初始值,并在NMF中加入鉴别性限制,以便有效分离噪声。实验证明,相同条件下CNMF分离算法的识别率比随机初始化NMF分离算法的识别率平均提高3.75%。(3)使用CNMF算法对含噪短语音进行噪声分离之后,语音帧仍然不同程度地含有残留噪声,需要对其进一步处理:使用语音帧质量判别算法将语音帧分为高质量类和低质量类,高质量类语音帧直接用于说话人识别,低质量类语音帧进行处理后用于说话人识别,既可以显著降低噪声的影响,又可以充分地利用含噪短语音的有限语料用于说话人识别,有助于提高含噪短语音的说话人识别率。本文分别提出了三种语音帧质量判别算法,分别是改进的信噪比判别算法(Improved SNR Discrimination Algorithm,ISNRDA)、差异检测与判别算法(Differences Detection and Discrimination Dlgorithm,DDADA)、基于 NMF 的信噪比判别算法(NMF-SNR Discrimination Algorithm,NMF-SNRDA)。实验证明,相同条件下使用ISNRDA判别算法相比分离噪声后不进行语音帧质量判别与分类可以平均提高含噪短语音的说话人识别率3.26%,使用DDADA判别算法的识别率相比使用ISNRDA判别算法的识别率平均提高1.71%,使用NMF-SNRDA判别算法的识别率相比使用DDADA判别算法的识别率平均提高1.74%。(4)为了更加精确地对语音帧进行分类,本文提出了双重信息质量判别算法。若两种语音帧质量判别算法同时判定一个语音帧为高质量,则将该语音帧分类为高质量类;若一种语音帧质量判别算法判定一个语音帧为高质量,另一种语音帧质量判别算法判定该语音帧为低质量,则将该语音帧分类为中等质量类;若两种语音帧质量判别算法同时判定一个语音帧为低质量,则将该语音帧分类为低质量类。实验证明,在各种信噪比环境下,本文提出的双重信息质量判别算法与单一判别算法相比,含噪短语音的说话人识别率平均提高2.32%。(5)分类得到的三类语音帧分别与本文构建的GMM-UBM三阶段分类模型相结合,使短语音的有限语料得到更加充分地利用,有效的降低了噪声和语料缺失对含噪短语音说话人识别率的影响。实验数据证明,相同条件下双重信息质量判别算法的各种组合与GMM-UBM三阶段分类模型相结合的含噪短语音说话人识别率比与GMM-UBM两阶段分类模型结合的识别率平均提高2.4%。

其他文献

展示设计基础课程教学探讨

展示设计基础是为会展设计及其相关专业学生开设的设计应用型课程,本文对于该课程的教学内容、教学难点、课时进度安排、实践教学环节等课程设置的问题进行了论述。 The bas

期刊

展示设计会展设计发展沿革应用型课程展位设计展示空间设计基础课程教学

人性化护理管理模式在小儿急腹症中的应用

目的：探讨人性化护理管理模式在小儿急腹症中的应用效果。方法：选取2011年11月~2012年11月我院收治的50例急腹症患儿作为对照组,采取传统常规对症护理;选取2012年11月~2013年11

期刊

人性化护理管理急腹症患儿生活质量满意度

适宜于南方的開敞式热加工厂房设计

近年来在工厂设计工作中,由于学习与吸取了苏联的经验,帮助我们尽快的去掌握这一门科学;但是在我们的工作中也反映出生硬搬用的现象。不容置疑,我们的国家同苏联不论在地理

期刊

热加工王重生天窗架厂房设计月平均值石棉瓦

嵩县探索“双师互动式”实践教学模式

2014年嵩县被确定为河南省洛阳市新型职业农民培育试点县。为了探索新的培育模式,积累培育经验,充分发挥示范作用,嵩县农广校将双师互动式教学模式运用于新型职业农民培育工

期刊

实践教学模式农广校互动式

农村留守中学生逆境信念水平的特点及其对情绪刺激认知偏向的影响

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

留守中学生逆境信念情绪刺激认知偏向

“全英式教学”与学生英语交际能力的培养

随着现代科学与经济的发展，国际问的语言交流越来越频繁，在这种状况下，英语的学习显得更为举足轻重，而以英语为交际手段的全英语教学也成为了二十一世纪的大势所趋。教师应通过“

期刊

中专英语教学学生交际能力培养口语教学情景教学法听力教学

美国2006年《国家安全战略报告》的亚非战略

在美国2006年版《国家安全战略报告》中,亚非战略是其重要组成部分。《国家安全战略报告》清晰地勾勒出亚非地缘战略(非洲、中东、南亚、中亚和东亚)的具体内涵。强调“先发

期刊

美国国家安全战略亚非战略

综合护理干预在高血压合并冠心病患者中的应用

目的观察分析综合护理干预措施在高血压合并冠心病患者护理中的应用效果。方法选择我院2014年2月至2016年9月收治的高血压合并冠心病患者148例作为本次的研究对象,随机将其分

期刊

综合护理干预高血压冠心病应用效果

关于加快惠州市现代物流业发展的调研报告

本文分析了惠州市物流业发展的现状及存在问题,提出了加快惠州市现代物流业发展的对策及建议.

期刊

惠州现代物流业现状对策

微波联合康妇消炎栓治疗慢性盆腔炎临床观察

目的观察微波联合康妇消炎栓治疗慢性盆腔炎的疗效.方法选择我院2001年1月-2003年1月就诊患者108例,分为2组:观察组58例采用微波联合康妇消炎栓治疗;对照组50例单纯采用康妇

期刊

慢性盆腔炎微波康妇消炎栓

基于含噪短语音的鲁棒说话人识别研究

其他学术论文