普通话水平测试系统中的语音识别和语音评测技术探究

来源 :课程教育研究 | 被引量 : 0次 | 上传用户:chenshunsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】普通话水平测试是践行“推广普通话”这一基本国策的重要手段。随着技术革新,传统的“人工测试”转变到由计算机进行辅助测试的方式。语言识别技术以及语言评测技术的应用,是不断推动普通话水平测试走向成熟的关键。
  【关键词】语音识别技术 语音评测技术
  【中图分类号】G65 【文献标识码】A 【文章编号】2095-3089(2017)18-0215-01
  经过20多年的发展,现今的普通话测试是通过计算机辅助测试的方式来完成的,主要在其中运用了语音识别技术以及语音合成技术,但是采用的测试系统是科大讯飞公司生产的测试系统。
  一、语音识别技术的基本概述
  1.预处理
  因为应试人员输入到测试系统中的是一些计算机没有办法识别的模拟信号,所以在计算机对信号进行处理之前,必须把模拟信号转化为数字信号。这就是预处理的作用,预处理包括预滤波、预加重、采样和量化等步骤。
  预滤波的主要作用是防止采样频率出现混叠干扰,同样可以对电源工频干扰进行抑制。
  预加重是针对采样部分高频信号来进行的,主要就是为了提高高频部分语音信号的分辨率,同时对发声过程中声带以及嘴唇的干扰进行消除,使得高频的共振峰更加突出。普通话水平测试系统中预加重的工作是通过一阶高通滤波器来完成的。
  采样和量化是通过A/D转换器来完成的,在每个周期之内,A/D转换器都会测量以及量化信号各一次。这样声音信号就会转变为数字音频信号。在模拟信号向数字信号转换之前,首先需要对模拟信号波形进行分割,其实这就是采样的本质。具体来说,是在采样周期之内模拟信号的波形上取一个幅度值,这样原本连续的模拟信号就会变为离散信号。采样周期的倒数为采样频率,在采样频率高于声音信号的最高频率的2倍时,数学信号所表示的声音才能够被准确的还原,这是实际采样过程中的一个难点。采样结束之后,声音音量的大小还会受到声波幅度电压值大小的影响,而对该数值的数字化表示,就是“量化”。量化首先要做的是对整个声波幅度进行划分,之后对区段内的值进行分类,然后用同一量化值进行赋值计算。对声波幅度的划分是按照2进制的方式来完成的。
  2.特征参数的提取
  语音识别系统中特征参数的提取是用梅尔倒谱系数来完成的(简称MFCC),该系数具有良好的抗噪音能力以及识别能力。
  MFCC的提取是按照以下步骤来完成的:首先求Mel标准刻度,Mel标准刻度能够描述人耳频率的非线性特征。是通过处理之后的语音频率来计算的,Mel标准刻度的单位为HZ。其次进行FFT操作,因为通常情况下很难根据信号本身的变化特征分析出信号时域上的变化特征。为了操作的准确性,我们通常用信号频域上的能量变化来代替信号时域上的变化,不同的能量变化特征能够代表语音信号本身的特征。因此如果我们将分帧之后的语音信号加上Hanmming窗,还应该对每帧信号进行FFT操作。这样就能够获得信号在频谱上的能量分布,语音信号的功率谱也是在这个基础上计算得来的。然后需要进行的是三角带通滤波器滤波,要求每个滤波器组输出信号对数能量的准确值。在这里需要说明,MFCC并不受输入信号的音高等因素的影响,所以说以MFCC为特征的语言识别系统,即当前普通话水平测试之中所采用的系统也不会受到输入语音音高等因素的影响。借助于三角带通滤波器,我们就能够对声音频谱进行平滑化处理,而且还能够消除谐波的作用,突显原本声音信号的共振峰。测试系统所采用的三角形濾波器,每个顶点与相邻滤波器的起点以及终点都能够做到重合,这样相邻两个滤波器之间就会出现重叠区域。然后对滤波之后的信号进行计算,就能够求出滤波器组输出的对数能量和倒谱系数。
  二、语音评测技术的基本概述
  1.工作原理
  这项技术运作首先要做的是从发音资料库中对标准语音资料进行特征提取,分析其中的显著特征。之后要做的是对大量的非标准发音资料进行特征提取。然后对提取的这两部分发音材料进行分析,系统自动生成一套完整的评分规则。最后才能够对待测的语音资料进行分析,从而得出一个相对直观、准确的评分。当前语音评测技术是普通话水平测试系统中最常用的技术。
  2.语音评测技术在汉语评测中的应用
  语音评测技术已经能够实现对用户输入的语音进行全部接收,所以说它已经使得说话过程变的非常积极了,这也是将这项技术运用到普通话测试之中的重要原因之一。应用这项技术最关键的一个作用就是对说话者的语音进行反馈,要实现这一目标需要建立起完备的语音语料库,这需要对大量的标准语音以及非标准语音进行分析。虽然说这一技术的存在我们已经实现了对于语音的自动评测,但是目前所用的评分系统对于句子层的敏感度较低,而且评测的内容必须是已经被收录在系统之内的问题并没有被解决。
  对于汉语语音的识别是借助HTK平台来实现的,因为汉语的特殊性,为了提高识别的准确度我们建立起了孤立词语音识别系统,对照标准发音模板而进行的特征比较,评测遵循的是发音与模板相似性越高分越高的原则。而相似性比较的参数有能量、基频以及MFCC参数等等。
  参考文献:
  [1]周晓兰. 计算机辅助普通话水平测试中的语音识别技术探讨[J]. 农村经济与科技,2016,(22):240-241.
  [2]周晓兰. 普通话水平测试系统中语音识别和语音评测技术研究[J]. 中外企业家,2016,(29):265-266.
  [3]万济萍,刘子菡,王玥,刘婉姬,张清涛,辛杰. 基于语音识别技术口语自动评测的专利分析[J]. 电声技术,2012,(S1):53-56.
其他文献
【摘要】意象这个重要的文化概念,增加了词语背后的文化内涵,在语言教学中注重文化意象的教学,可以使学生更好地理解、掌握第二语言。  【关键词】大学语文 预科教育  【中图分类号】G642 【文献标识码】A 【文章编号】2095-3089(2017)18-0170-02  本文选用的教材是由人民教育出版社出版,遵照教育部、国家民委颁布的《普通高等学校少数民族预科文科、理工科教学大纲》的要求编写,是为了
国际半导体设备暨材料协会(SEMI)近日公布最新年终预测,2013年全球半导体制造设备市场营收达320.2亿美元、年减13.3%,惟明(2014)年荣景可期,将出现23.2%的强劲成长,台湾则连
一、引言党的十八大提出发展生态文明,建设美丽中国。作为能耗大户,建设行业如何转型升级,实现绿色发展倍受关注。2013年1月1日,国务院办公厅转发国家发展改革委与住房和城乡
以黄河三角洲高技能人才实训广场为例,分析了高职院校共享型实训基地建设与管理现状,提出了共享型实训基地建设思路,研究和实践了共享型实训基地管理模式,以期为后续的共享型
我国的税收文化宣传工作,改革开放二十多年来,主要是通过两条渠道进行:一是总局直接领导和部署的每年轰轰烈烈的税收宣传月活动;二是以国家税务总局主办的《中国税务》、《中国税
本文以部分近现代西方古典学者的研究为例,从语词、语法、句法三个语言层面以及综合文本的角度考察了古希腊风格学在对于柏拉图对话的语言的研究中的一些具体运用。本文展示
Gene tagging is the base of marker-assisted breeding for insect resistance in rice.Five genes (Sbph1, Wbph2, Wbph2, Wbph4, and Wbph 5) were identified tobe resp
经济和社会的全面发展,促进了人们安全意识的不但提高。现阶段,电子防盗门在住宅建筑中的应用是非常广泛的,该设备的使用时通过楼宇对讲系统实现的,既能够产生防盗的效果,又
1.品种简要说明:优质、高产面包小麦新品系,白粒硬质强筋面包小麦,于1997年、1998年分别参加北京、天津市区试。(1)品质特性:经农业部谷物测试中心测试,籽粒蛋白质含量16.5%(干基),湿面筋35%,沉降值53ml。粉质仪
随着我国教育事业的改革不断推向纵深领域,高职教育的培养目标已经由单纯的技能训练转变为关注学生全面发展、强化学生适应社会的能力上了.物理作为高职院校理工科的一门基础