与文本无关的说话人识别算法的研究

来源 :五邑大学 | 被引量 : 0次 | 上传用户:meteora5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动说话人识别(Automatic Speaker Recognition, ASR),很久以来就是一个既有巨大吸引力而又有相当困难的课题。自动说话人识别是指计算机通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的说话人集合中。说话人识别可分为三类,即“与文本有关”、“与文本无关”和“文本指定”。 与文本有关的说话人确认系统的研究已经比较成熟,并已作为商品在许多需要身份确认的场合中应用,而与文本无关的实现要复杂和困难许多。随着对与文本无关的说话人识别系统研究的不断深入,说话人识别的应用已经渗透到数据库管理、机器人研究、电信、安全系统以及命令控制系统等诸多领域。 在说话人识别研究的主要问题包括: (1)寻找能够有效代表一个人的特征参数。 说话人识别所采用的基本方法是比较被识别人的话音与已知被存储的话音所形成的差别,这种差别往往以彼此之距离作为测度。目前已提出过的或使用的距离测量方法很多,重要的问题在于寻找合适的语音参数。说话人识别的参数应有以下特点: ①对不同的说话人差别较大,对同一说话人的不同语音或在不同时间、地点所发的同一语音则变化要尽量小; ②易于计算和处理; ③不易被模仿; ④受外界干扰较小,能适应不同的处理系统; (2)设计能够有效地计算一段测试语音与某个人的特征参考模板之间距离的匹配算法。 目前,说话人识别的研究主要集中在以下几个方面:如何增强特征矢量的鲁棒性和决策规则;以及提取在复杂噪声环境和信道条件下依然有效的特征参数;如何选取分类器和决策规则;以及怎样将新算法、新思路或其他领域和学科的成果与传统的识别方法结合起来,以改进系统的性能。 本论文的研究内容是与文本无关的说话人识别算法的研究。主要做了以下几方面的工作: (1) 研究了几种常见的说话人识别的特征提取办法,如:线性预测倒谱系数(LPCC)、差分LPCC、美尔倒谱系数(MFCC)和差分MFCC等,并通过实验,说明使用不同的系数进行说话人识别的效果; (2) 研究了矢量量化(VQ)、高斯混合模型(GMM)和人工神经网络(ANN)三种说话人建模方法,基于以上参数和模型建立了多套说话人识别系统,并给出了详细的测试结果; (3) 在VQ的说话人识别模型中,码本的初始化采用了改进的二元分裂法,在距离的匹配算法中采用了一种新的加权方法,为了防止局部最小化采用了模拟退火法,并与一种AR矢量模型做了比较; (4) 在HMM说话人识别模型中,采用了EM算法,并运用了MCE模型的改进算法,实现了说话人识别,并取得了较好的实验结果,最后说明了HMM自转移存在的问题和提出了解决办法; (5) 在ANN的说话人识别模型中,说明了BP算法,并结合VQ,运用了LVQ学习算法去实现说话人识别,然后运用GMM/ANN混合模型去实现说话人识别方法,最后指出了ANN存在的一些问题和解决办法。 本论文对说话人识别与应用具有一定的参考借鉴价值。
其他文献
期刊
期刊
本文对图像评价准则和视频传输的抗误码方法进行了全面的研究,主要工作可分为两部分:第一部分总结了以往的静止图像及图像序列质量的评价方法,并提出了一种方便可行的图像评价准
期刊
期刊
中间件已经成为开发企业级应用的基础平台,它屏蔽了系统底层开发的复杂性中,将开发者的工作重点转移到对具体业务逻辑的分析和设计上,这样既减轻了应用开发者的负担,同时缩短
在雷达目标识别领域,一维距离像HRRP由于其易于获取、可以进行实时识别等优点,日益成为一种重要的识别手段。在传统的基于一维距离像的识别方法中,需要提前获得待识别目标的训练
本文提出了一种用于联机手绘图形的自适应隐马尔科夫模型识别方法,该方法利用隐马尔可夫模型(HMM)对时序随机序列的描述能力作为手绘图形识别中的核心分类器,并且在传统HMM识别
期刊
期刊