基于支持向量机和小波分析的说话人识别技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:Keldorn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术目前已经成为身份认证及人工智能领域研究的一个热点,解决噪声环境下的说话人识别问题具有重要的理论价值和深远的实用意义。支持向量机是建立在统计学习理论的VC维(Vapnik-Chervonenkis Dimension)理论和结构风险最小化原则基础上的重要理论。作为一种新的机器学习方法,SVM能较好地解决小样本、非线性、高维数和局部极小点等实际问题,因此成为继神经网络研究之后新的研究热点。目前,SVM在模式识别、回归分析、时间序列分析、聚类分析等方面都有一定成功的应用实例。将SVM的分类算法应用于说话人识别等模式识别问题,可以有效地解决传统分类器的过学习、泛化能力差和维数灾难等问题。本文提出了一种基于支持向量机和小波分析的说话人识别方法以及其框架模型,首先将小波分析应用于说话人识别的前端预处理过程中,利用其多分辨分析特性将语音信号和噪声分离,实现语音增强;然后在特征提取阶段,提取出Mel倒谱及其一阶差分参数,将其生成基于SVM的特征向量序列;最后使用支持向量机多类分类器,基于样本进行训练和测试,实现说话人的分类识别。本文在自己建立语音库的基础上,对小波去噪语音集和非去噪语音集进行了SVM分类识别的比较实验。实验结果分析表明,该方法能有效提高说话人识别系统的识别率。并且,基于小波去噪语音集,本文对说话人识别中遇到的难点如特征向量的帧数、帧长和维数、训练次数、核函数参数等对说话人识别率的影响也进行了实验与分析,并针对SVM具有较高的二值分类精度的特点,提出了一种考虑性别差异的说话人识别方法,来提高去噪语音集上说话人识别系统的识别率。本文最终取得了一些有意义的研究结果,并为说话人识别研究提供了有力的数据和积极的建议。
其他文献
移动Ad Hoc网络(Mobile Ad Hoc Network MANET)是由一系列动态主机节点临时组成的多跳无线网络,与基于固定基础设施的网络相比,它具有无中心、自组织的特点。节点兼有主机和
数据库的发展经历了三个阶段,第一代是以技术为中心的前关系型数据库,也称为非关系型数据库,始于二十世纪六十年代,主要是层次数据库和网状数据库,这一类数据库过程化程度较高,一般
人类每天连续地从事着大量的活动。我们不自觉的识别理解这些活动,同时跟其他人与环境进行互动和交流。如果机器跟计算机也能像人类一样有效的理解到人类的手势,一个新世界的篇
高通量基因测序技术是第二代基因测序的主要技术,得到许多研究机构的广泛关注。该技术是将含有碱基信息的荧光点组成原始待测序图像,经过碱基识别操作得到所测基因序列。因为
在使用计算机数字化现实世界的过程中,相对于以往二维图像,三维数据具有其独特的优势。随着现代三维扫描技术与建模技术的提高,基于采样点的三维数据模型即点云模型,已经逐渐
随着计算机、互联网的发展,给人的生活习惯、态度带来巨大的变化。它能提供一个无限广阔的数字空间,同时,它也给自己无限发展的空间。随着人们对计算机网络技术的要求不断提
多传感器多目标跟踪技术是围绕着多传感器目标跟踪和多目标跟踪两方面的实现展开的。多传感器目标跟踪是数据融合技术在目标跟踪领域的应用范例,它将多个传感器的信息有机合
实时数据库系统(RTDBS)是实时系统和数据库技术的有机结合,当前,实时数据库系统广泛应用于军事、电信、电力、航空、工业控制、证券交易等领域,而这些应用领域大部分都是分布
随着Internet和宽带网络技术的日益发展,传统的以文字和图片为主的服务已不能满足用户的需要,具有视频和音频的多媒体服务成为主流。近几年嵌入式网络数字视频监控系统正在得
需求工程是随着计算机的发展而发展的,在计算机发展的初期,需求分析很少受到重视,后来软件开发引入了生命周期的概念,需求分析成为其第一阶段。随着软件系统规模的扩大,人们逐渐认