语音非线性特征在说话人识别中的应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:lzflivecn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是一种生物识别技术,它是指机器通过说话人的语音自动识别出说话人的身份。在信息接入服务安全控制、司法鉴定、人机界面智能化等方面这项技术有着良好的应用前景。说话人识别主要经过三个阶段来实现——提取特征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的一步。不能提取充分反映说话人个性特征的特征量,后两步的优化很难奏效。现有特征提取方法大都是建立把语音信号当作短时平稳信号的认识基础上的,这些特征用于说话人识别取得了较好的效果,但是在人们设法进一步提高系统的识别率和鲁棒性时呈现出了它的局限性。针对这种困难,本文考察了语音信号的非线性特征,并讨论如何将它们应用于说话人识别,以改善系统的性能。围绕这个研究思路,本文主要做了以下内容的工作: (1)介绍了说话人识别的基本概念、基本原理、技术难点,回顾了说话人识别的研究历史和概括了国内外的研究现状; (2)为从根源上研究语音特性,本文对语音的发声器官和产生机理进行描述,分析了说话人发音过程中存在的非线性现象,并通过计算38个汉语音素的最大李雅普诺夫指数从实验角度验证了语音的混沌性; (3)运用信号处理知识阐述线性预测倒谱系数、Mel倒谱系数等反映说话人个性的常用特征量的原理及计算方法。同时,较为详细地讨论了刻画语音非线性特性信息的特征量——最大李雅普诺夫指数、二阶熵和关联维数的物理意义及其提取算法; (4)比较新颖地将非线性特征运用于说话人识别。为检验其效果,使用矢量量化模型和高斯混合模型两种分类器,结合常用特征构建了两个基准系统,并且提供了有关基准系统性能的实验数据。 (5)如何运用信息融合的原理融合不同特征量和不同分类器的优势来提高说话人识别的性能,本文在最后部分进行了探讨和分析。
其他文献
空时编码技术是近几年来在无线通信领域新兴的研究方向,它主要用于高速无线通信的下行链路传输,能够大幅度地增加无线通信系统的容量,同时提供分集增益和编码增益,并且达到远
信息化革命的浪潮从其兴起之日就不曾停过脚步。无线网络技术更首当其冲,成为信息化发展的标志。为了更好的利用这项充满前景的技术,我们需要更深刻的理解无线网络的系统特性
IEEE802.15.3是“高速率无线个人局域网(WPAN)的无线媒体接入控制(MAC)和物理层(PHY)规范”,它是IEEEWPAN工作组针对消费者图像和多媒体应用,为低功率低成本的短距离通信制定的
近十年来,信息技术的发展使得围绕数据方面的应用越来越广泛,从传统的MIS到今天的DSS(决策支持系统)和ERP/MRP(企业需求计划管理),都使企业的管理和生产效率获得了实质性的提高
无线传感器网络作为一种复杂的网络系统,由感知节点、汇聚节点以及任务管理节点协作完成对监测区域内的数据感知、采集与处理,目前在军事、工业、农业、医疗等领域得到广泛的应