一种稳健的基于Visemic LDA的口形动态特征及听视觉语音识别

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户:anan52ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉特征提取是听视觉语音识别研究的热点问题.文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分.文章同时提出了一种利用语音识别结果进行LDA训练数据自动标注的方法.这种方法免去了繁重的人工标注工作,避免了标注错误.实验表明,将VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率:将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上.
其他文献
通过对河道整治工程根石受力状态的分析 ,建立了根石走失的物理模型 ,从而导出了天然河道根石走失的力学计算公式 ,其计算结果与黄河河道整治工程丁坝根石走失计算结果和实测
以10mol%MgO-PSZ为基础,研究了添加5.7mol%、7.4mol%和9.1mol%CeO2的(Ce,Mg)-PSZ陶瓷的力学性能和显微结构.实验结果表明:材料的耐高温老化性随CeO2含量的增加而增强.微观结
明清戏曲中,有一类把作者科举考试的经历遭遇、感受体验和理想追求投寄到作品人物身上的“自况”之作,冯惟敏的《不伏老》是其中最早的作品。通过解读文本,结合作者生平思想及其
以黄河水资源可再生性和可持续性发展理论为指导,分析了黄河流域多维临界调控措施、方案;基于协同学原理和耗散结构理论,应用系统科学的方法,建立了黄河流域多维临界调控仿真
随着科技的进步与发展,移动联网设备的全面普及,人们对网络的快速化、稳定性和覆盖率的要求越来越高。机会网络作为未来多网络融合的补充,能够在恶劣的环境下工作,对网络的优化起
3维城市模型建模方法有很多种,每种方法在数据量、建模效率、逼真度、数据管理、适用范围、拓扑复杂度、几何复杂度、纹理复杂度等诸多方面都存在差异,如何选择一种适合实际情况的3维城市模型建模方法,规范建模流程,是一个值得讨论的问题。
分析了强力推进黄河标准化堤防工程建设的必要性和可行性,指出了工程前期准备工作时间短和工程设计标准偏低等问题,建议:①工程建设划分拆迁和施工两个工期;②适当提高拆迁标准;③
梁宗岱的早期诗集《晚祷》,收入诗人1921—1924年创作的诗歌。这些诗歌形成自己独有的美学特色——注重自我内心的情绪表现,借助自然意象,通过暗示、象征等手法营造一种意境与氛
为了研究干旱半干旱地区植被资源的可持续利用,以科尔沁沙地建群种差巴嘎蒿为主要研究对象,将群落演替划分为4个阶段,从“同物异谱”特性着手,利用连续统去除和一阶微分对原
目的探讨桥小脑角区常见良性占位性病变MRI影像特点和规律,达到诊断及鉴别诊断目的。方法回顾我院2008年以来21例桥小脑角区肿瘤MRI影像特征。均经手术及放疗,结果男性12例,