口语教学训练系统中非语音特征的滤除

来源 :硅谷 | 被引量 : 0次 | 上传用户:CNHTC01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]人们使用计算机的最终目的是应用计算机来解决实际问题。如果将口语教学训练系统应用到实际教学当中,可以有效的解决现今社会中师资缺乏的现象,并能够为贫困山区的学生提供更好的学习语言的环境。因此本次研究是十分有意义的。主要论述的是口语教学训练系统中非语音信号的滤除,并以轻咳声为例。首先采用MFCC方法[3]对语音信号进行特征提取,并使用支持向量机[2]进行分类,达到将无意识的轻咳声从语音信号中滤除的目的。
  [关键词]口语 教学 语音
  中图分类号:HO1 文献标识码:A 文章编号:1671-7597(2008)1010155-01
  
  一、引言
  
  口语训练系统的研究当中,非语音特征的滤除是一个非常重要的部分。本文主要研究的也是这方面内容。非语音的特征有时候是有意识的情感的表达,有的时候仅仅是一种无意识的发声。对于那些无意识的非语音状态,我们需要将其滤除,避免它所产生的干扰。这项研究,在教学领域是十分必要的,特别需要应用在机器教学当中,因为需要的是人机交互,机器需要来分析人说的话,而人在说话时所发出的一些无意识的声音,例如轻咳,它的发音是有相应的汉字与其相匹配的,这一点与笑声[1]的研究是一致的。这样则需要机器分析出它并不是我们所需要的语音特征,而是无意识的非语音特征,这样才能有目标的将其滤除,以便来更好的分析语音信息。本文会以研究轻咳声的滤除为例,详细的论述无意识的非语音特征的滤除过程。
  
  二、非语音信息的特征提取方法
  
  对非语音的特征提取,本质上是起降维作用,用较少的维数表现了说话人的特征。本文使用的非语音特征的提取方法是MFCC 及MFCC 和其一阶差分。
  
  特征提取分为预处理(采样/ 量化、预加重处理、加窗)和特征提取。
  (一)预处理
  1.采样/量化。为了将原始的模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。
  2.预加重处理。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz 以上按6 dB / 倍频程跌落,为此要进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。
  3.加窗。语音信号的准平稳特性,使得只在短时段上才可视为是一个平稳过程。可以用对平稳过程的分析方法进行分析,因此需将语音信号划分为一个一个的短时段,每一短时段称为一帧,为从语音信号中切取含有N 个样本的语音信号波形,需要用时间窗函数乘以原来的语音信号。而矩形窗的采用使得每一帧信号在起始点和终点处发生突变,不再连续,从而导致Gibbs 现象的出现。为了减小起始点和终点处的不连续性,可以改变窗函数的时域特性,使其在起始点和终点处逐渐变为零,如Hamming 窗(即升余弦窗):
  N=0,1,……,N-1 (2)
  其中N 称作帧长,为时间窗的窗宽。为尽可能不丢失语音信号动态变化的信息,常采用滑动窗,即帧与帧之间有一定的重叠。
  (二)特征提取
  人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。MFCC充分利用人耳这种特殊的感知特性。
  
  三、实验研究
  
  (一)SVM分类
  支持向量机的理论最初来自对数据分类问题的处理。对于数据分类问题,如果采用通用的神经网络方法来实现,其机理可以简单地描述为系统随机产生一个超平面并移动它,直到训练集中属于不同分类的点正好位于平面的不同侧面。这种处理机制决定了用神经网络方法进行数据分类最终获得的分割平面将相当靠近训练集中的点,而在绝大多数情况下,并不是一个最优解。为此考虑寻找一个满足分类要求的分割平面,并使训练集中的点距离该分割平面尽可能地远,即寻找一个分割平面,使其两侧的空白区域最大。
  (二)基于SVM的识别结果
  通过Matlab进行仿真试验,可以得到以下结果:图一为特征点,图二为SVM的分类结果。
  
  由实验表明:本分类器的识别率能达到93.1%,达到了预期的效果,能够有效的把非语音特征从语音特征中滤除。
  
  四、结论
  
  本次研究基本打到了预期的效果,对于无意识的非语音特征识别达到90%以上,因此能够有效的将这些提取出的特征进行滤除。为口语训练系统的研究打下了坚实的基础。
  
  参考文献:
  [1]Khiet P.Truong*,David A.van Leeuwen.Automatic discrimination between laughter and speech. TNO Human Factors,Department of Human Interfaces, P.O. Box 23,3769 ZG Soesterberg,The Netherlands. 4 January 2007.144-158.
  [2]Nello Cristianini,John Shawe-Taylor. SUPORT VECTOR MACHINES.PUBLISHED BY THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE.2003.
  [3]张万里、刘桥,Mel频率倒谱系数提取及其在声纹识别中的作用.贵州大学学报.207-210.
  
  作者简介:
  魏颖,女,辽宁葫芦岛人,渤海大学信息科学与工程学院06级研究生,主要从事将语音识别更好的应用与教学的研究。
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
[摘要]防汛水雨情数据的网络传输,尤其是通过广域网的传输,其稳定性、完整性、实时性尤其重要。通过与常用数据传输方法的比较,说明采用数据库触发器和作业调度方式传输数据的优点,分析用此方法传送水雨情数据时应考虑的几个问题,说明具体实现方法及改进措施。  [关键词]触发器 作业调度 水雨情  中图分类号:P4文献标识码:A 文章编号:1671-7597(2008)1010149-01    一、数据库分
2005年载重车行业新车辈出,精品不断.为争夺世界载重车“江湖霸主地位”,各载重车生产商之间的较量如火如荼.最后入围的六款车型均为集近年载重车高新技术之大成者,且各怀绝
中图分类号:J6 文献标识码:A 文章编号:1671-7597(2008)1010147-01    正确的掌握钢琴的慢练技巧,对于每个学琴者来说都是至关重要的。一开始学琴是这样,学成之后亦是这样。不论乐曲的技术难度大或小,速度快或慢,都应该坚持“先慢练,后加速”的原则,即使一首乐曲很熟练了,也应该常坚持这种方法来对曲子的技巧部分加以巩固,不断的加强乐曲的完整性。往往很多学琴者对慢练都存在一个误区
本文论述了高职院校学生学习英语的重要性,从培养学生学习英语的重要性,如何改进教学模式,以及联系实际教授学生在今后工作中有用的英语等几个方面提出了英语教学的一些建议
阳光明媚的四月,记者走访了位于合肥市北郊的安徽省煤炭工业学校。作为我省煤炭中等职教与培训的基地,安徽煤校已经度过了15个春秋。正值“少年花季”的安徽煤校如今校容整洁,设施
[摘要]计算机文化基础是大学非计算机专业的必修课程,是对现阶段大学生素质的基本要求之一。结合教学实践,从教学的具体方面详细的阐述在计算机文化基础课程的教学中如何从实际出发,培养学生的实践能力、思维能力、创新能力、社会适应能力和自学能力。  [关键词]计算机文化基础 教学方法 能力培养  中图分类号:G42 文献标识码:A 文章编号:1671-7597(2008)1010153-01    21世纪
[摘要]在新课程的理念下的合作学习是对传统教学组织形式的一种突破和补充,是在老师的指导下,学生主动地富有个性地学习。介绍在计算机基础教学中如何体现合作学习的价值,营造合作学习的环境,强调老师在合作学习中要注意角色的转换,把握好以学生发展为本的主线。  [关键词]新课程 计算机基础教学 合作学习  中图分类号:G42 文献标识码:A 文章编号:1671-7597(2008)1010159-01   
期刊
[摘要]谈心是班主任工作不可缺少的重要环节, 谈心是一种双向交流的活动。在班主任工作中,教师总是希望通过谈心,沟通师生之间的感情,达到影响、教育学生的目的,而学生的心理与个性特征是复杂的,要想提高谈心效果,必须讲究艺术。对症下药,把话说到学生“心坎”上去,使学生的情感得到共鸣,心灵受到震撼,使学生健康成长。  [关键词]班主任 谈心 艺术  中图分类号:G44 文献标识码:A 文章编号:1671-
BOT是建设(Build)-运营(Operate)-转让(Transfer)的英文缩写,是政府依照协议授予项目公司在特许经营期内独家有权以融资、建设、拥有、运行、维护一个污水处理厂(或其它基础