汉语连续语音识别系统的研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:meimeini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是利用计算机对人类的语音进行处理,将语音信号转化为文字符号的一种技术。国内外对汉语语音识别的研究已经有了近60年的历史,取得了很大的进展,但仍存在很多问题。现有的语音识别技术还达不到人与机器通过自然语言交互的目标,大词汇量、非特定人的连续语音识别仍是语音识别研究的难点与重点。本文主要研究汉语连续语音识别的关键技术。首先介绍了语音识别的原理、语音识别系统的组成以及汉语语音的基本知识。然后分别介绍了语音识别的预处理、特征参数提取、模式匹配和后处理阶段的功能及其关键技术,并针对传统方法中存在的问题提出了改进方案。本文的主要工作有:1)在个人电脑平台下,用Microsoft Visual C++, MATLAB, Microsoft SQL Server等工具实现了一个中等词汇量、非特定人的汉语连续语音识别系统,并对系统进行了实验。系统选择声韵母作为识别基元,特征参数采用Mel频标倒谱系数,识别模型选用动态时间规整模型。2)识别基元分割的准确度对系统的识别性能影响很大,现有的声韵母分割方法在非连续语音中分割准确度较高,但在连续语音中分割准确度大幅度降低。针对这一问题,本文结合汉语连续语音的特性,利用熵与汉语元音的共振峰能量设计了一种新的声韵母分割方法,有效提高了声韵母分割的准确度。3)采用传统动态时间规整技术的语音识别系统在识别时计算量较大,系统响应时间长。针对这一问题,本文提出了基于模板阈值的DTW改进算法和基于待测语音特征矢量阈值的DTW改进算法,有效减少了计算量,提高了系统的实时性。
其他文献
随着现代计算机科学技术的发展,使用计算机进行图像处理操作变得越来越普遍。计算机图像处理在日常的工作生活当中的某些流程或领域中也扮演着越来越重要的角色。图像匹配问
随着网络上的信息量迅速的增加,如何有效的处理和组织这些文本数据,成为当前研究的重要课题,文本分类是其中的核心课题之一。文本分类的任务是在给定类别标签的前提下,根据文
对于传统工矿企业,如何有效地进行工程项目管理是当前面临的关键问题。网络信息技术与工程项目管理理念的结合是解决这个问题的重要措施之一。任务管理系统作为提升企业核心
L1距离问题是计算几何领域的重要研究课题之一。通过对L1距离问题特性的研究,能够得到求解计算几何经典问题的有效算法。因此,对于L1距离问题的研究,不仅具有重大的理论研究
立体匹配算法是双目立体视觉研究中的重要研究内容,大多数匹配算法获得匹配图像的稠密立体视差图。稠密立体视差图是进行视觉测量、三维重建等许多应用的基础。大多数立体匹配
随着计算技术、网络技术和控制技术的深入发展,一种最新的复杂系统Cyber-physical Systems应运而生。Cyber-physical Systems是运用3C技术和3i技术手段集计算、通信与控制于
RFID数据具有流式、海量、时态、语义丰富、不可靠的特点,随着RFID技术的广泛应用,如何实时高效地清洗RFID系统产生的不可靠海量数据是一个亟需解决的问题。   传统的数据
现如今,飞速发展的移动通信技术和手机普及率的快速增长,使得手机短信使用率迅速增加,因为短信以其容易使用、快速、价廉、可靠的特点,很快被广大手机用户接受,已经成为一个
淮河流域洪涝灾害频繁,因灾害而产生的直接及间接损失较重,急需一种新的技术手段以实现防洪减灾工作的数字化、高效化,从而降低灾害损失。虚拟现实技术、地理信息系统技术等
自从计算机发明以来,人们对机器翻译的兴趣越来越大。机器翻译是指计算机把一种自然语言(源语言)转换成另一种自然语言(目标语言)的过程。维吾尔语和乌兹别克语在单词结构、