论文部分内容阅读
语音是人类最自然、最熟悉的交互方式,现今语音识别、语音合成等的研究方兴未艾。孤立词识别领域已经取得了非常可喜的成绩,但是,在某些情况下,样本间的差异过大使得训练出的模型很难有好的建模精度,要想获得可以接受的识别率就要对模型做进一步的改进。本文在原有人工神经网络与隐马尔可夫模型(ANN/HMM)相结合的模型基础上研究一种多重混合识别模式作为语音的识别方法,以期可以使用多重模型对差异样本互补的进行建模,取得较好的识别率。人工神经网络(ANN)具有抗噪声、抗变异、自适应、学习能力强、识别速度快等特点,因此将其作为状态级的模型,也就是待识别对象基本单元的模型;隐马尔可夫模型(HMM)具有较强的处理时间序列的能力,故作为时序模式的整体模型。在本方法中,ANN与HMM是帧层面的结合,用ANN输出误差来估计HMM某一状态的输出概率。首先,提出了一种自动增减状态来确定模型状态数的方法。这种方法可以根据训练样本的具体情况自动在适当的位置增加或者减少状态,对建模精度不够的状态进行拆分,对包含数据帧数比较少的状态进行删除,最终达到一个合适的数量。在上述模型的基础上,我们提出了一种多重ANN/HMM混合模型,通过竞争学习机制划分样本,通过自适应特征重组方法来降低系统的存储与计算开销。自适应特征重组方法还可以利用ANN的自适应学习能力来保证系统的性能。以语音识别为实验对象,我们将上述方法与传统方法做了比较。结果表明,这种方法的模型精度和识别率的提高,并不是建立在大量消耗系统资源的基础上的。为了将研究成果实用化,利用上述识别模型及方法,我们开发了一个简单的智能人机交互系统,人们可以利用语音输入向计算机发布命令,交互方式简单自然。从对该系统的使用情况来看,它具有响应速度快,识别率高的特点。