多重ANN/HMM混合模型在语音识别中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:houhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类最自然、最熟悉的交互方式,现今语音识别、语音合成等的研究方兴未艾。孤立词识别领域已经取得了非常可喜的成绩,但是,在某些情况下,样本间的差异过大使得训练出的模型很难有好的建模精度,要想获得可以接受的识别率就要对模型做进一步的改进。本文在原有人工神经网络与隐马尔可夫模型(ANN/HMM)相结合的模型基础上研究一种多重混合识别模式作为语音的识别方法,以期可以使用多重模型对差异样本互补的进行建模,取得较好的识别率。人工神经网络(ANN)具有抗噪声、抗变异、自适应、学习能力强、识别速度快等特点,因此将其作为状态级的模型,也就是待识别对象基本单元的模型;隐马尔可夫模型(HMM)具有较强的处理时间序列的能力,故作为时序模式的整体模型。在本方法中,ANN与HMM是帧层面的结合,用ANN输出误差来估计HMM某一状态的输出概率。首先,提出了一种自动增减状态来确定模型状态数的方法。这种方法可以根据训练样本的具体情况自动在适当的位置增加或者减少状态,对建模精度不够的状态进行拆分,对包含数据帧数比较少的状态进行删除,最终达到一个合适的数量。在上述模型的基础上,我们提出了一种多重ANN/HMM混合模型,通过竞争学习机制划分样本,通过自适应特征重组方法来降低系统的存储与计算开销。自适应特征重组方法还可以利用ANN的自适应学习能力来保证系统的性能。以语音识别为实验对象,我们将上述方法与传统方法做了比较。结果表明,这种方法的模型精度和识别率的提高,并不是建立在大量消耗系统资源的基础上的。为了将研究成果实用化,利用上述识别模型及方法,我们开发了一个简单的智能人机交互系统,人们可以利用语音输入向计算机发布命令,交互方式简单自然。从对该系统的使用情况来看,它具有响应速度快,识别率高的特点。
其他文献
当今的时代是网络信息的时代,网络上的网页数量非常的庞大,并且正在以飞快的速度增长。搜索引擎的出现可以帮助我们从网络上较为准确的获取含有相关的信息的网页,但是获得信息是
由于图像语义特征和低层特征的“鸿沟”问题,给基于内容的图像检索技术带来了很大困难,目前提取的内容特征仍集中于颜色、纹理、形状等低层特征。因此如何结合语义特征,使得
三维重构是计算机视觉中一个重要的研究方向,其应用领域十分广泛,它利用相机在不同角度拍摄实物,从获得的多幅图像来恢复所拍摄物体的深度信息,得到兴趣点的三维空间坐标,并
随着网络的广泛应用,电子邮件已成为人们广泛应用的最经济的一种通信手段之一。然而,电子邮件在给人们提供便捷通信的同时,其副产品-垃圾邮件,却给广大用户带来了大量的麻烦
随着交通运输业的发展,车辆导航系统被越来越多的人们所接受,用来在行驶过程中,快速准确地确定车辆的位置,为司机指出到达指定目的地的合理路径。在车辆导航系统中,如何引导车辆是
在最近几年中,无线传感器网络受到了世界广泛的关注。特别是,随着通信技术、芯片技术、物联网技术和计算机技术的发展,无线传感器网络被广泛的应用到社会的各个行业中,为人们
随着世界经济的稳步增长和汽车价格的不断下降,近年来私人汽车的持有量显著上升。在享受汽车带给我们便利的同时,因交通事故而产生的问题也日益突出。其中,司机泊车时由于车
信息经济一体化和以计算机为代表的信息技术的快速发展是当今时代的两个显著特点。现代船舶行业,也步入了信息化高度发展的新时代。为了迎接当今全球造船行业飞速发展的机遇
随着我国加入WTO以及市场全球化进程的不断推进,现代企业面临着更加激烈的市场竞争,为了在全球化的市场竞争中获得较大的市场份额,以提升企业的国际竞争力,现代企业的管理模
web日志挖掘的研究目的在于发现浏览网站的行为规律,改善站点的结构和页面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文对web日志挖掘