改进后的VQ算法在说话人识别中的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:weishuange0l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]根据不同环境下不同说话人语音特征各阶差异较大的特点,对矢量量化算法进行改进,提出一种基于动态权值改进的矢量量化(VQ)方法。实验结果证明,该方法提高说话人识别系统的识别率。
  [关键词]改进的VQ算法 说话人识别
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320045-01
  
  一、引言
  说话人识别系统的作用在于利用给定的一个未知语音参数据,从一组已知的说话人数据中判断出此未知语音数据的说话人身份,同时要排除冒充者的影响。当前业界较为常用的说话人识别技术有以下几种:矢量量化,隐性马尔可夫链模型,人工神经网络等。其中,基于矢量量化法的说话人识别方法,一方面用若干离散的数字值来表示各种矢量,能够大大压缩语音信息量,减少数据存储量,减小各信息量之间的关联;另一方面又可避免语音分段问题,而且无需考虑复杂的统计模型和复杂的时间归整问题,其运算过程也较为简单,因此VQ算法在说话人识别领域有着广泛的应用。本文根据说话人识别中训练语音的特点,对矢量量化的码本匹配算法进行了改进,并将改进算法与原算法识别率进行了对比研究。
  二、矢量量化算法原理
  矢量量化(VQ)是一种很重要的数字信号处理方法。在说话人识别中,可以把每个待识别说话人的语音看作一个信号源,用一个码本来表征,码本从该说话人的训练语音序列中提取的特征矢量聚类而成。训练就是对各个语音建立码本,要求这些码本在特征空间中相互不重叠。识别时,先从测试语音中提取一组矢量,然后用系统中建立的各个码本依次对它们进行矢量量化即判断这组矢量与特征空间中的哪一个码本的分布最为吻合。设N个码本的阶数分别为M。可以定义第i个码本的平均量化失真距离 为:
  式中, 代表第i个人的特征向量,代表第i个人的码本向量。计算距离时经常采用欧氏距离或欧氏距离的平方。使平均量化失真距离最小的那个码本所对应的说话人即为识别结果。传统VQ算法的处理流程如图1所示。
  图1VQ原理图
  三、改进的VQ算法
  当前在VQ码本构建中较为常用的参数是LPCC参数和MFCC参数,传统的VQ算法在建立码本和进行比较时不考虑LPCC参数与MFCC参数各阶所包含信息量大小不同,全部使用相同的权值来处理,会导致一组参数中某几个不利于识别的除数影响最终的识别精度。本文提出一种利用训练数据来计算权值的方法,可以有效的提高VQ算法的识别准确率。
  在VQ码本建立的过程中,对不同的语音样本数据进行预处理,选取训练数据,对其进行参数提取,得到一组参数。每一个语音样本得到一组参数,共N组语音样本,我们计算这N组参数各个阶数的方差。本文构建的权值计算过程如下式所示:
  其中 代表N组参数中的第i阶参数的数学期望值,其物理意义代表了第i阶参数的均值信息。 代表第j组参数的第i阶参数值。
  式中,为N组参数中第i阶参数的方差,表示了这N组参数中第i阶参数偏离均值的程度,偏离越大代表着在本阶参数中各个说话人的特征区分越明显,越有利于说话人的识别。
  权值 由该组归一化的方差来表示,方差大的除数权值大,方差小的除数权值小, 代表各阶参数最大的方差值。通过使用归一化权值的方法,使各个参数中特征区分明显的阶数在识别中起更大的作用,使参数中特征区分较模糊的阶数在识别中产生更小的影响。通过这样的方法可以有效的提高说话人识别的精度。
  每当有新的说话人数据输入到说话人识别系统的同时,需要重新计算所有权值,保证权值的更新。
  四、实验结果分析
  实验时,采用普通声卡,采样频率为16KHz,PCM方式,量化精度为8bits,录音环境为普通机房。共有20个说话人(10男10女)的语音数据。语音内容为随意的文章阅读,每人共录制10个声音文件,用前8个做训练样本,后2个做测试样本。实验中分别采用16阶的LPCC特征矢量,16阶的MFCC特征矢量与16阶LPCC训练所得的LBG码本三者进行比较。在训练阶段,将分别从各个训练语音中提取的特征矢量,用VQ码本进行矢量量化,并计算其方差大小如表1所示。
  通过实验得到的对比数据(VQ算法采用8次训练,2次识别)如表2所示。
  改进后的VQ算法在相同训练数据的情况下,识别率明显地高于传统的LPCC、MFCC以及传统VQ算法。在实验过程中LPCC识别率明显高于MFCC识别率,通过分析,认为MFCC基于人耳听觉模型,在说话人朗读相同文本时,参数的分辨能力低于基于全极点模型,对声道系统建模的线性预测倒谱系数。由实验还知,传统VQ算法与改进后VQ算法的识别率与训练次数有关,训练次数越多,改进后VQ算法的识别率越高。
  
  作者简介:
  罗利,女,湖北省汉川市人,中国地质大学机械与电子信息学院,硕士研究生,研究方向:说话人识别;张友纯,男,湖北省武汉市人,中国地质大学机械与电子信息学院,硕士研究生导师,研究方向:说话人识别。
其他文献
[摘要]SQL*Loader是Oracle的高速批量数据加载工具,它具有速度快、对Oracle数据库的控制功能强等优点。介绍如何利用SQL*Loader快速导入数据的方法,以实例的形式演示执行过程,并结合实例对一些参数做说明。  [关键词]SQL*Loader Oracle SQL  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320035-01    SQL*LOA
期刊
[摘要]随着信息技术的不断发展,网上考试是教育信息化的必然发展趋势。针对浙江越秀外国语学院的实际情况,开发无纸化CET-4在线模拟考试系统对促进教学质量、提高工作效率、节约考试成本等有着十分重要的作用。  [关键词]在线考试 自动组卷 B/S .NET  中图分类号:TP2文献标识码:A文章编号:1671-7597(2009)0320044-01    一、开发背景  浙江越秀外国语学院是浙江省唯
期刊
[摘要]介绍单片机与上位PC机串行通信的方法,设计单片机与PC机之间基于串行接口RS-232标准的串行通信接口电路。系统使用MAX232芯片以及外围电路进行电平转换实现单片机串行通讯口与PC机串行通讯口的互连,给出单片机与PC机实现串行通信的软件设计方法。  [关键词]串行通信 串行接口RS-232标准 电平转换  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)03200
期刊
[摘要]Ajax是近几年web应用方面的热点技术,其应用越来越广泛。一般来说传统的web应用中几乎没有使用设计模式,但在Ajax的开发中却涉及到了部分设计模式,就此内容做一个简要的介绍和分析。  [关键词]Ajax 设计模式 Adapter Facade  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320032-01    一、Ajax中使用设计模式的原因  尽管A
期刊
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320049-01    在国土资源部矿产资源储量空间数据库建设过程中,基础工作也是最主要的工作就是图件的数据采集及入库过程,目前主要采用的是国土资源部推广的内蒙古自治区和湖北省国土资源厅所建矿产资源储量库的工作经验,即内蒙古自治区的人工数据采集和湖北省的MAPGIS投影数据采集法。    一、技术路线    内蒙古自治区数
期刊
[摘要]IPv6作为下一代互联网协议已经引起各国家、各运营商的足够重视,目前中国高校和科研机构已经与一些运营商合作,对IPv6进行研究实验,但还没有普遍推广,而是处于IPv6与IPv4相互并存和过渡的阶段。  [关键词]IPv6网络 IP地址 部署技术  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320042-01    一、引言  随着Internet的规模以几何
期刊
[摘要]主要论述通过OFS(OPC)与Twido PLC的通讯。  [关键词]OFS(OPC) Twido 通讯  中图分类号:TN92文献标识码:A文章编号:1671-7597(2009)0320014-01    一、引言  OPC作为一种通用的通讯方式在上位机层面有着广泛的应用基础。作为一种开放式的通讯方式,OPC有开放,易用等特点。可以把上位编程人员从PLC的底层通讯协议解放出来,真正做到
期刊
[摘要]设计一种基于Qt Graphics View的组态仿真框架。按照Graphics View模块化的设计思路,首先介绍其每个模块的特性,并在此基础上提出组态仿真的设计要素。最后提出控制策略和数据库的设计思路。  [关键词]Qt Graphics View 组态 仿真 控制策略  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320043-01    一、引言  随
期刊
[摘要]简述一个利用IOS新特性解决路由非正常阻塞的案例。  [关键词]IOS 路由阻塞 cisco  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0320011-01    一、问题描述    最近,部门软件开发测试人员总反应跟下属地方管理部测试无法正常进行,网络延时很大;但事实上从我们中心到下属地方管理部是租用电信的2M的数字链路的啊,完全可以满足生产数据运营和测试
期刊
[摘要]Microsoft.NET是微软公司提出的新一代软件开发模型。.NET主要包括Visual Studio .NET开发工具,.NET平台以及.NET服务器,其技术核心是Web Services。目前微软已经推出了.NET企业服务器系列,如Windows Server 2003、SQL Server 2003和ISA Server等等。这些服务器已经完全和Visual Studio .NET
期刊