基于多流三音素DBN模型的音视频语音识别和音素切分

来源 :电子与信息学报 | 被引量 : 5次 | 上传用户:cccccdddddccccccccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象。实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能。
其他文献
期刊
本文通过对荣华二采区10
期刊
李智纲,1940年出生于河北威县。1960年入南开大学,1962年转学天津美术学院,1966年毕业。师承著名花鸟画家李鹤筹、孙其峰等。当代著名花鸟画家、书法家、散文作家。现为《散
在当代语言学和文学研究中存在这样一种趋势:即更强调语言的人际的、变化的和可商议的意义。这种趋势说明人们越来越意识到在话语层面研究人际功能的重要性。所谓人际功能,指
学位
目前AMDAthlonXP处理器的分类如下:1、AMDAthlonXP采用QuantiSpeed结构,并设有384KB的内置全速高速缓存,可以支持AMD专业3DNow!(指令,确保多媒体应用程式可以发挥更高的性能。AMD
期刊
第一期Ga N基材料生长及其在光电器件领域的应用王三胜 ,顾 彪 ,徐 茵 ,秦福文 ,杨大智 ( 1 )…………………电容式微传声器的制备研究新进展宁 瑾 ,刘忠立 ,赵 慧 ( 9)
期刊
大扬影像Club接轨国际,与国内外众多著名摄影师合作,是立足全国的高端摄影旅行品牌。我们的团队由国内外优秀摄影师组成,他们拥有丰富的理论、实战与指导经验。我们的出境摄
在英语听力教学中,通常的方法是由教师对学生预先进行背景知识的讲解。在早期的听力教学研究中,不少教师认为背景知识是影响听力理解的一个重要因素,但是他们的观点基本上限于经
目的评价某化工企业密封源装置放射卫生防护安全性。方法依据《电离辐射防护与辐射源安全基本标准》等相关标准,检测在储源闸关闭和开启时,距源容器表面5、50、100cm及周边环