语音指令识别系统原理及实现

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:gyl5667661
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术,经过了近半个世纪的发展,已经越来越成熟,内容也越来越丰富,然而无论人们在为让机器听懂并理解人类语言方面花了多大的努力,人们距离让机器能够理解任何人口述任何内容的目标还很远。与连续自然语音识别的应用难度不同,以孤立词识别为基础的语音指令识别系统已经开始走向实用化,而且应用也越来越广泛。本文就语音指令识别系统的基本原理与方法进行了详细的分析和讨论,并对具体应用中的一部分技术细节进行了探讨。 本文首先对语音指令识别系统作了整体介绍,介绍了个部分的主要功能,并简要比较了语音识别的基本方法。 本文重点讨论的第一个问题是基于滤波器组、付立叶变换、线性预测编码的六种通常的语音识别系统中所采用的频谱分析方法,以及频谱整形,参数平滑和矢量量化技术,基于短时时间帧的分析,并包含了参数归一化。通过频谱分析,我们把原始的语音信号信息量进行了压缩,用一组参数构成特征矢量,为后面的识别决策做好数据准备。 接着在频谱分析的基础上,本文重点讨论了滤波器组分析方法。文章介绍了用于数字滤波器设计的MATLAB软件中的Sptool工具;讨论了基于mel与Bark尺度的滤波器组的通带划分;比较了FIR和IIR滤波器的特点,以及实际设计当中滤波器选型和个数的确定;另外,还讨论了所采用的特征,窗函数的比较和设计,帧重叠技术以及在特征提取中的影响;最后,分析了软件缓冲问题,硬件实现时的A/D转换问题。 模式比较技术是本文讨论的另一个重点。在这一部分中,主要讨论了语音端点检测,即如何从录制的声音流里检测语音信号的问题;特征矢量相似度度量,即如何比较特征矢量的相似度问题;时间归整和归一化,即如何通过整体时间归整和归一对两个语音模式(特征矢量序列)进行相似度度量的问题。详细讨论了动态时间归整算法(DTW)及其改进。 最后,本文介绍了两个系统的具体实现,并对文章进行了总结。 本文研究得到了航空基础研究基金及陕西省科技研究发展计划项目的支持。
其他文献
电动汽车节能环保,而传统燃油汽车既消耗大量不可再生能源,又带来严重的环境污染,电动汽车取代传统汽车是大势所趋。电动汽车驱动控制技术是电动汽车关键技术之一。本文介绍了电
该文在了解GIS的一些基本概念的基础上,详细分析了目前比较流行的两种矢量地图数据文件—ESRI ShapeFile的数据文件和MapInfo的数据交换文件格式,进而提出了统一处理这两种矢
中国手语的构成是以手势语为主,适当配合手指语,包括30个手指字母,大约5500个基本手势词.手指语是从字母语言发展起来的,用一个指式代表一个汉语拼音字母,按照汉语拼音方案拼
一个完整的网络分析软件的体系结构必须由以下几个部分组成:稳定、高效的分组捕捉机制,强大、健全的分组过滤机制,清晰、全面的分组解释、解码机制和友好的用户界面.该文将讨
该文从因特网及数据库理论的发展和现状着手,首先简要介绍了系统的总体结构、功能及特点,并介绍了陕西省软科学网的设计、实现、功能以及所采用的技术;然后对系统开发过程中
随着计算机网络技术的应用和普及,利用网络快速安全的传递、分发和回收公文,并逐步实现无纸化办公已成为一种不可阻挡的趋势。设计一种基于工作流的网络办公软件已成为各单位的
该文主要研究基于图像颜色特征的检索.提出了一种基于代表色块的特征的图像检索方法.我们在HSL色彩空间提取出能够良好再现原图像主色调的n种颜色(称为代表色),再计算出表征
该文论述了针对方正eBook阅读器ApabiReader的应用背景,基于组件对象模型的插件体系结构的设计和实现技术,并提出了相应的设计模式.该论文充分研究了Windows系统平台上的组件
随着模型驱动技术在软件开发中的广泛应用,以UML为代表的大量可视化建模语言不断涌现,但它们中的大部分目前还没有严格的形式语义,所建立的模型存在很多潜在不一致性等问题,
该文作者的主要工作如下:(1)通过引入渐进学习和分布式计算的机制,设计了PG和PG两种优化的PageGather算法,明显降低了输入数据量和算法复杂度,使得PageGather算法在电信级网