一种稳健的基于VisemicLDA的口形动态特征及听视觉语音识别

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户:woheni187170713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将’VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。 Visual feature extraction is a hot issue in the study of visual speech recognition. This paper introduces a robust lip-shape dynamic feature based on Visemic LDA, which fully takes into account the change of lip shape and the visual Viseme classification when pronouncing. At the same time, the article puts forward a method of automatically labeling LDA training data by using speech recognition results. This method eliminates the need for heavy manual labeling and avoids annotation errors. Experiments show that the introduction of ’VisemicLDA visual features into auditory visual speech recognition can greatly improve the recognition rate of speech recognition systems under noisy conditions. After combining this visual feature with multi-stream HMM, Strong noise, the recognition rate can still reach more than 80%.
其他文献
宋庆华这个名字并不为公众熟知,但是在环保N G O这个圈子里,她却拥有很高的知名度,因为她在不惑之年曾放弃“铁饭碗”到北京地球村环境教育中心工作了5年多的时间。这段时间,
会议
目的:评价两种方法学检测糖类抗原242(CA242)结果的可比性,以评估磁微粒化学发光法检测CA242是否能够满足临床的需求。方法:根据美国临床和实验室标准协会(CLSI)新指南EP9-A3文件
现已退休的敖德巴拉女士在号称“天下第一难”的计划生育工作岗位上一干就是十多年,作为计划生育助理员,她走遍了3500多平方公里的鄂温克旗锡尼河东苏木,将自己生命中最美好
野村证券(Nomura Securities)比瑞银晚了三天,于2003年3月24日向中国证监会正式递交了QFII资格申请。据了解,野村申请的额度为5000万美元,其数目同样不是很大,但该公司也瞩目于中国A股,用他们的话说,“投资中国A股是投资中国的未来”。上个世纪80年代初,野村就为中国发行体打通了连接海外资本市场的渠道,在中国不断地扩展了业务范围。  资金雄厚是野村行使QFII资格的基础。野村
速生红椿7号是河南省卢氏县迅达经济技术开发公司用红椿6号同普通白香椿、红香椿两个常见品种进行嫁接,人工授粉,杂交选育而成。集三个品种于一体的优良品种,即继承了传统红
三爷去了。妈妈说三爷去的时候身边就三奶奶在。我突然觉得失去了什么。有点痛的感觉。三爷是个猎人。骑在马背上长大。三爷有很多的朋友。和我爷爷就是最好的兄弟。我们两家
本文研究了浙江省10个小型矿山粉尘的肺组织细胞毒性。结果发现以腊石矿A、腊石矿B、矾矿及铅锌矿A的毒性较强、煤矿A、煤矿B、煤矿C、磁土矿、萤石矿及铅锌矿B的毒性较弱,这