基于GMM-UBM的稳健的说话人识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qian_betty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术随着信息技术与模式识别技术的不断发展和我们的日常生活越发变得息息相关。尽管在实验室环境下,目前很多说话人识别系统都表现出了喜人的性能,但应用到实际中,它们的表现却很难令人满意。稳健的说话人识别技术研究就是试图解决如何在实际环境下提高系统识别性能的问题。本文主要研究了高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)和I-矢量(Identity Vector,I-Vector)两种技术在说话人识别中的应用,并针对其在实际应用中的缺陷分别在稳健的特征提取、有效的信道补偿、简单的得分规整三个方面深入研究并提出相应的改进方法。梅尔频率倒谱参数(Mel Frequency Cepstral Coefficient,MFCC)得益于考虑了人的听觉原理和倒谱特性而具有分类性能优良与易于计算等卓越特点,因此常被用来作为描述说话人个性的特征参数。然而实际环境会导致MFCC分布非高斯化程度加剧。为降低训练与识别时MFCC分布间的差异,本文首先对MFCC进行RASTA滤波以降低卷积噪声和不同信道的影响,为去除由调制转换引起的卷积噪声对其进行倒谱均值减(Cepstral Mean Subtraction,CMS),再利用特征弯折重构每一维MFCC特征使其服从一个统一的分布。此外,结合MFCC差分系数以更好地描述帧与帧之间的联系。在基于GMM-UBM的打分阶段,对得分采用结合的规整技术进行归一化,不仅在一定程度上提高了系统的性能而且易于设定统一的判决阈值。目前,说话人识别发展所遇到的瓶颈就是如何克服训练和测试语音之间的信道变化。针对此问题,本文选择概率线性鉴别分析对I-Vector进行信道补偿。此外,本文在在首先对I-Vector空间进行方差谱规整以降低理想模型与实际模型之间的差异,在打分阶段提出一种简单的得分规整方法来规避由于质量差的语音所造成说话人被漏检的风险。最后针对不同的需求设计不同的方案并付诸于实验证实了本文所提出的方法是行之有效的。
其他文献
佛兰克斯·榭恩(Francoise Schein)是比利时建筑师、都市规划师、视觉艺术家。担任比利时考文垂大学访问教授,并任教于凯姆布雷视觉艺术学院。曾就读于比利时比亚大学和布
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文在对文献资料进行梳理的基础上,较系统地介绍了国内外关于中学教学中的非正式评价的最新研究成果,其中包括非正式评价的涵义及评价方法,同时在深圳市高级中学开展了非正
“感谢所有碧桂园扶贫人投身这个伟大的事业中。希望我们的扶贫团队共同探索出一条可造血、可复制、可推广的具有碧桂园特色的精准扶贫乡村振兴道路。”日前,碧桂园集团党委
报纸
2007年8月下旬,省国土资源厅总工程师吴国昌带队,赴津巴布韦及塞拉利昂就有关矿业勘查及开发政策进行了访问和考察。
当前,大学生面临着学业、就业、经济和人际关系等压力,进而引发的心理问题逐渐增多。本文就大学生一系列的心理问题进行了分析与探讨。旨在加强心理疏导,提高大学生心理健康
高中“导师制”是学校教育工作的一项新举措,它能充分发挥教师与学生两方面的积极性、创造性和内在的潜力。高中实施“导师制”必须:明确“导师制”的目的和意义;界定“导师
作为亚洲最大的家庭用品展,香港家庭用品展(Hongkong house ware fair)今年踏入25周年,今年的展会将于4月20至23日在香港会议展览中心隆重举行。这一备受业界关注的会展盛事带
介绍了神东煤炭集团公司洗选中心共青团组织,根据洗选中心的实际情况,引导组织青年员工开展青年成长工程等活动,使青年员工提高了素质,激发了活力,逐渐成为支持洗选中心飞速
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技