基于改进特征参数的说话人识别鲁棒性研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:ufs2997izxn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体信息技术的快速发展,互联网中的语音资源呈现出了爆炸式地增长,因此正确的处理这些语音用以分类和识别具有重要的意义。说话人识别又称为声纹识别,是一种非常重要的生物特征识别技术,已经取得许多重要的成果,有着非常广阔的应用前景。现有的说话人识别系统在纯净语音下的效果很好,但是在实际应用中,会受到各种因素的影响,系统性能大幅下降。因此如何提高说话人识别系统的鲁棒性是研究的重点和难点。  本文在分析和总结前人研究的基础上,针对现有的说话人识别系统鲁棒性不足的问题,作了如下内容研究:  (1)在信号域中,提出了一种基于理想二进制掩膜和稀疏编码的语音增强算法,并且通过分析增强后语音信号的语音感受质量评估(PESQ)与传统算法进行了对比。对比证明,该算法对带噪语音具有很好的增强效果;  (2)在特征域中,引入了特征规整、MVA特征后处理算法等在倒谱域进行信道补偿并抑制噪声。并且针对传统特征参数,如梅尔频率倒谱系数(MFCC)鲁棒性不足的问题,提出了改进的能量规整倒谱系数(IPNCC)和改进的Gammatone滤波倒谱系数(IGFCC),通过实验表明,这两种特征均可大幅度提升系统的抗噪性能,尤其是在信噪比低于10dB的情况下,鲁棒性具有更大的提升;而在实时率上的实验结果表明,IGFCC相对于GFCC实时率降低21.79%,虽有一定的降低,仍可满足实时性要求。IPNCC相对MFCC实时率降低53.76%,更适合离线识别;  (3)在模型域中,首先通过实验对比了高斯混合模型-通用背景模型(GMM-UBM)与i-vector模型的性能,得出i-vector的识别等错误率要比GMM-UBM低0.5%。然后提出了利用迭代自适应算法重新估计i-vector模型中总体变化子空间矩阵T的方法。通过总体变化子空间T在测试数据集上的迭代自适应训练,使提取到的测试说话人i-vector矢量更加的准确。  最后对整个研究工作进行总结,指出本文算法的局限和不足之处,指明下一步工作方向。
其他文献
随着社会生产与科学研究的快速发展,复杂环境中的机器人应用更加频繁。当作业环境复杂多变时,机器人的通信网络环境将遭受电磁环境和地理环境影响,通信链路很难保持稳定工作甚至
当前煤炭业瓦斯爆炸仍然是煤矿重大灾害事故之一,为了确保矿井生产安全,国内大部分煤矿开始安装瓦斯抽放监控设备,但是这些设备大多数都是安装在固定的泵房或者巷道中,其传感器在
外辐射源雷达系统,因为反侦察、抗摧毁和生存能力强等特点,日益受到各国的关注。由于该系统所利用的辐射源多分布在VHF或者UHF波段,它同时具备了常规低频雷达的优点。本文主要开
随着无线通信的发展,为了满足对未来无线网络的需求,为用户提供多种多样的通信方式、接入手段和不同的制式集合于一体的产品迫在眉睫。上海市科委资助课题[课题编号:10DZ15007
无线通信技术作为信息技术的重要组成部分,已经成为现代通信技术中最活跃的技术领域。对无线通信的研究虽然取得了很大进展,但是无线通信系统性能的研究仍然受无线信道的制约。
本论文着重研究计算机辅助电磁建模和微波电路设计的新技术——空间映射方法,及其在微波滤波器优化设计中的应用。   电磁仿真由于其精准性,在高性能微波滤波器的设计和诊断
由于移动数据流量的爆炸式增长,蜂窝网运营商面对更大的压力来为蜂窝用户提供足够的蜂窝频谱资源,以满足每天动态变化的流量需求。为了解决日益增长的移动数据流量的需求问题,蜂
随着互联网和信息技术的发展,视频已经成为人们生活中的一部分。视频中包含大量的信息,使得它很难直接存储或者传输。为了解决这一问题,人们在视频压缩编码领域进行了不懈的
2012年底,中国移动在香港推出了TD-LTE和FDD-LTE相融合的服务,同时,在全国13个城市建设TD-LTE规模试验网,各种渠道信息都表明2013年将发放LTE牌照。终端的数量和成熟度,已经成为TD
激光超声检测技术以非接触、远距离遥测、高灵敏度及高的时空分辨率等优点在无损检测领域中迅速发展并得到工程应用。它是现代激光技术与超声学相结合而产生的新型学科,利用激