论文部分内容阅读
[摘要]人们使用计算机的最终目的是应用计算机来解决实际问题。如果将口语教学训练系统应用到实际教学当中,可以有效的解决现今社会中师资缺乏的现象,并能够为贫困山区的学生提供更好的学习语言的环境。因此本次研究是十分有意义的。主要论述的是口语教学训练系统中非语音信号的滤除,并以轻咳声为例。首先采用MFCC方法[3]对语音信号进行特征提取,并使用支持向量机[2]进行分类,达到将无意识的轻咳声从语音信号中滤除的目的。
[关键词]口语 教学 语音
中图分类号:HO1 文献标识码:A 文章编号:1671-7597(2008)1010155-01
一、引言
口语训练系统的研究当中,非语音特征的滤除是一个非常重要的部分。本文主要研究的也是这方面内容。非语音的特征有时候是有意识的情感的表达,有的时候仅仅是一种无意识的发声。对于那些无意识的非语音状态,我们需要将其滤除,避免它所产生的干扰。这项研究,在教学领域是十分必要的,特别需要应用在机器教学当中,因为需要的是人机交互,机器需要来分析人说的话,而人在说话时所发出的一些无意识的声音,例如轻咳,它的发音是有相应的汉字与其相匹配的,这一点与笑声[1]的研究是一致的。这样则需要机器分析出它并不是我们所需要的语音特征,而是无意识的非语音特征,这样才能有目标的将其滤除,以便来更好的分析语音信息。本文会以研究轻咳声的滤除为例,详细的论述无意识的非语音特征的滤除过程。
二、非语音信息的特征提取方法
对非语音的特征提取,本质上是起降维作用,用较少的维数表现了说话人的特征。本文使用的非语音特征的提取方法是MFCC 及MFCC 和其一阶差分。
特征提取分为预处理(采样/ 量化、预加重处理、加窗)和特征提取。
(一)预处理
1.采样/量化。为了将原始的模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。
2.预加重处理。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz 以上按6 dB / 倍频程跌落,为此要进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。
3.加窗。语音信号的准平稳特性,使得只在短时段上才可视为是一个平稳过程。可以用对平稳过程的分析方法进行分析,因此需将语音信号划分为一个一个的短时段,每一短时段称为一帧,为从语音信号中切取含有N 个样本的语音信号波形,需要用时间窗函数乘以原来的语音信号。而矩形窗的采用使得每一帧信号在起始点和终点处发生突变,不再连续,从而导致Gibbs 现象的出现。为了减小起始点和终点处的不连续性,可以改变窗函数的时域特性,使其在起始点和终点处逐渐变为零,如Hamming 窗(即升余弦窗):
N=0,1,……,N-1 (2)
其中N 称作帧长,为时间窗的窗宽。为尽可能不丢失语音信号动态变化的信息,常采用滑动窗,即帧与帧之间有一定的重叠。
(二)特征提取
人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。MFCC充分利用人耳这种特殊的感知特性。
三、实验研究
(一)SVM分类
支持向量机的理论最初来自对数据分类问题的处理。对于数据分类问题,如果采用通用的神经网络方法来实现,其机理可以简单地描述为系统随机产生一个超平面并移动它,直到训练集中属于不同分类的点正好位于平面的不同侧面。这种处理机制决定了用神经网络方法进行数据分类最终获得的分割平面将相当靠近训练集中的点,而在绝大多数情况下,并不是一个最优解。为此考虑寻找一个满足分类要求的分割平面,并使训练集中的点距离该分割平面尽可能地远,即寻找一个分割平面,使其两侧的空白区域最大。
(二)基于SVM的识别结果
通过Matlab进行仿真试验,可以得到以下结果:图一为特征点,图二为SVM的分类结果。
由实验表明:本分类器的识别率能达到93.1%,达到了预期的效果,能够有效的把非语音特征从语音特征中滤除。
四、结论
本次研究基本打到了预期的效果,对于无意识的非语音特征识别达到90%以上,因此能够有效的将这些提取出的特征进行滤除。为口语训练系统的研究打下了坚实的基础。
参考文献:
[1]Khiet P.Truong*,David A.van Leeuwen.Automatic discrimination between laughter and speech. TNO Human Factors,Department of Human Interfaces, P.O. Box 23,3769 ZG Soesterberg,The Netherlands. 4 January 2007.144-158.
[2]Nello Cristianini,John Shawe-Taylor. SUPORT VECTOR MACHINES.PUBLISHED BY THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE.2003.
[3]张万里、刘桥,Mel频率倒谱系数提取及其在声纹识别中的作用.贵州大学学报.207-210.
作者简介:
魏颖,女,辽宁葫芦岛人,渤海大学信息科学与工程学院06级研究生,主要从事将语音识别更好的应用与教学的研究。
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
[关键词]口语 教学 语音
中图分类号:HO1 文献标识码:A 文章编号:1671-7597(2008)1010155-01
一、引言
口语训练系统的研究当中,非语音特征的滤除是一个非常重要的部分。本文主要研究的也是这方面内容。非语音的特征有时候是有意识的情感的表达,有的时候仅仅是一种无意识的发声。对于那些无意识的非语音状态,我们需要将其滤除,避免它所产生的干扰。这项研究,在教学领域是十分必要的,特别需要应用在机器教学当中,因为需要的是人机交互,机器需要来分析人说的话,而人在说话时所发出的一些无意识的声音,例如轻咳,它的发音是有相应的汉字与其相匹配的,这一点与笑声[1]的研究是一致的。这样则需要机器分析出它并不是我们所需要的语音特征,而是无意识的非语音特征,这样才能有目标的将其滤除,以便来更好的分析语音信息。本文会以研究轻咳声的滤除为例,详细的论述无意识的非语音特征的滤除过程。
二、非语音信息的特征提取方法
对非语音的特征提取,本质上是起降维作用,用较少的维数表现了说话人的特征。本文使用的非语音特征的提取方法是MFCC 及MFCC 和其一阶差分。
特征提取分为预处理(采样/ 量化、预加重处理、加窗)和特征提取。
(一)预处理
1.采样/量化。为了将原始的模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。
2.预加重处理。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz 以上按6 dB / 倍频程跌落,为此要进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。
3.加窗。语音信号的准平稳特性,使得只在短时段上才可视为是一个平稳过程。可以用对平稳过程的分析方法进行分析,因此需将语音信号划分为一个一个的短时段,每一短时段称为一帧,为从语音信号中切取含有N 个样本的语音信号波形,需要用时间窗函数乘以原来的语音信号。而矩形窗的采用使得每一帧信号在起始点和终点处发生突变,不再连续,从而导致Gibbs 现象的出现。为了减小起始点和终点处的不连续性,可以改变窗函数的时域特性,使其在起始点和终点处逐渐变为零,如Hamming 窗(即升余弦窗):
N=0,1,……,N-1 (2)
其中N 称作帧长,为时间窗的窗宽。为尽可能不丢失语音信号动态变化的信息,常采用滑动窗,即帧与帧之间有一定的重叠。
(二)特征提取
人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。MFCC充分利用人耳这种特殊的感知特性。
三、实验研究
(一)SVM分类
支持向量机的理论最初来自对数据分类问题的处理。对于数据分类问题,如果采用通用的神经网络方法来实现,其机理可以简单地描述为系统随机产生一个超平面并移动它,直到训练集中属于不同分类的点正好位于平面的不同侧面。这种处理机制决定了用神经网络方法进行数据分类最终获得的分割平面将相当靠近训练集中的点,而在绝大多数情况下,并不是一个最优解。为此考虑寻找一个满足分类要求的分割平面,并使训练集中的点距离该分割平面尽可能地远,即寻找一个分割平面,使其两侧的空白区域最大。
(二)基于SVM的识别结果
通过Matlab进行仿真试验,可以得到以下结果:图一为特征点,图二为SVM的分类结果。
由实验表明:本分类器的识别率能达到93.1%,达到了预期的效果,能够有效的把非语音特征从语音特征中滤除。
四、结论
本次研究基本打到了预期的效果,对于无意识的非语音特征识别达到90%以上,因此能够有效的将这些提取出的特征进行滤除。为口语训练系统的研究打下了坚实的基础。
参考文献:
[1]Khiet P.Truong*,David A.van Leeuwen.Automatic discrimination between laughter and speech. TNO Human Factors,Department of Human Interfaces, P.O. Box 23,3769 ZG Soesterberg,The Netherlands. 4 January 2007.144-158.
[2]Nello Cristianini,John Shawe-Taylor. SUPORT VECTOR MACHINES.PUBLISHED BY THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE.2003.
[3]张万里、刘桥,Mel频率倒谱系数提取及其在声纹识别中的作用.贵州大学学报.207-210.
作者简介:
魏颖,女,辽宁葫芦岛人,渤海大学信息科学与工程学院06级研究生,主要从事将语音识别更好的应用与教学的研究。
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”