论文部分内容阅读
多媒体技术的兴起,成为计算机与人之间信息交流的关键技术,语言作为人类相互交流和通信最快捷的手段,两者之间的结合实现语音传输、存储或通过语音实现人机交互成为重要的研究课题。为计算机增加语音交互方式,使人机交互像人与人交流那样自然友好,这种自然和谐的交互技术已经成为人机交互领域的发展趋势之一。本实验室设计开发了BME-1服务型机器人,针对该机器人语音识别的要求,设计了适合BME-1机器人的语音交互系统,介绍了实现人机信息交互的开发方法。使人与机器人的沟通过程中可以通过语言进行交流,满足科学性、交互性的要求。本文在对语音互动系统功能及关键技术分析研究的基础上,对系统进了详细设计并初步实现了该交互系统的功能。本文针对汉语音设计开发了三个语音互动系统模块,即语音分析模块、语音识别模块以及语音合成模块,其中语音分析模块主要包括语音增强处理以及语音信号特征参数的提取。针对不同的模块进行了汉语语音的分析和研究,其中语音信号的前端处理主要包括语音信号的预加重以及分帧加窗处理,同时经过计算得到了合适的汉语语音传感器阵列参数,根据系统要求选择圆形阵列,并研究了汉语语音增强算法,本论文中选择了基于子空间线性估计器的增强算法。在汉语语音信号特征参数的分析部分,主要研究了语音信号端点检测以及基因周期估计的方法,论文提出了基于短时能量和短时过零率的双门限端点检测法和基于短时自相关函数(Short Time Autocorrelation Function, AMD)、短时平均幅度差函数(Short Time Average Difference Function, AMDF)的基音周期估计法,同时对语音信号进行了平滑滤波处理,对清浊音进行了二次判定。最后根据该系统的要求选择Speech SDK实现机器人语音交互系统的设计,利用Speech SDK提供的应用程序编程接口SAPI进行汉语语音识别与合成,对识别结果在逻辑程序中处理,实现人机对话和汉语语音控制。