论文部分内容阅读
针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(DynamicBayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级别上体现了音视频流的异步性。采用连续数字音视频数据库的实验结果表明,在信噪比为0~30 dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68