会议语音的混响消除及其大词汇量连续语音识别的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:hnkfxndz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术的应用前景是无限的。应用语音的自动理解和翻译,可以消除人类相互交往的语言障碍。随着Internet网的爆炸性扩张,电子商务的迅速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各领域带来极大的便利。 随着近代计算机技术的飞速发展,大词汇量连续语音识别系统已经取得了较高的识别准确率,语料库的选择也由干净、单一的实验室环境下语料转为混杂着噪音、混响复杂环境下的语料。真实环境下的语音识别成为研究的热点。 论文围绕美国加州伯克利大学ICSI研究所提供的会议语料库,分析了影响识别率的三个原因:噪音、混响、说话人重叠。通过研究,旨在应用各种算法提高ICSI会议语料库的基线识别率。论文首先对语音识别系统的结构、语音模型、语言模型进行描述,然后分析了混响信号和混响模型,陈述了消除混响的基本方法,接着描述了ICSI语料库的构造和特点,最后分别提出了三种算法来消除噪音、混响和说话人重叠并且进行了实验。对ICSI数字语料库进行识别时通过减谱法和长时减谱增强语音后,识别率由64%上升到91%。在对ICSI会议语料库进行识别时,根据上述的两种方法加上说话人检测消除说话人重叠技术,识别率提高了30%。 本文结合了信号处理和语音识别两项技术,其创新性在于:通过混响模型定义,提出后混响方差估计与减谱法结合的算法以达到消除混响和噪音的双重目的;并且根据互相关系数,检测重叠说话人的主导说话人,从而对语料库进行修改,以达到消除重叠说话人语音对语音模型训练的影响。
其他文献
图像分割是计算机视觉的预处理部分,在人工智能领域占有非常重要的地位。分水岭算法是快速有效的图像分割算法,但它有一个内在的缺陷,用纯粹的分水岭算法来进行图像分割的结
随着Internet的飞速发展,网络信息安全日益受到业界的关注和重视,防火墙作为普遍使用的网络信息安全技术成为研究的热点。Linux下基于Netfilter/iptables架构的防火墙具有很多
图算法一直是学术界和工业界的研究热点。随着社交网络和大数据爆炸式增长,基于大图数据的应用逐渐增多。Google提出了Pregel图计算系统,解决关于大图数据的分布式计算问题。
安防系统是一项被人们日益重视的新兴产业,就目前发展看,应用普及越来越广,科技含量越来越高。几乎所有高新科技都可促进其发展,尤其是信息时代的来临,更为该专业的发展提供
毕业论文是自学考试本科专业的最后一科综合考核课程,要求考生必须按照专业考试计划所有课程合格后才可以进行,所以就必须存在一个对考生是否有资格进行论文撰写的资格审核过
系统的性能优化技术被广泛地应用于科学研究,商业服务等领域,实际上,软件的性能优化技术的发展远落后于硬件和体系结构的发展。系统的性能优化仍是计算机应用领域研究的重点
集群系统是采用动态分配信道的方法,使有限的频率资源为众多的用户服务的专用通信系统。MPT1327是专用信道集群移动通信系统的一种公开典型信令,在频率资源利用,呼叫功能及系
Peer-to-Peer网络(P2P)技术是目前热门的研究领域之一,它对传统网络的“以内容为中心”的服务模式产生很大冲击。P2P网络采用分布式结构,每个节点既是客户端又是服务器,这种
随着网络技术与嵌入式技术的迅速发展,将嵌入式系统连接进入Internet网络成为发展的必然,这样有利于嵌入式设备与信息网络彼此互连,一方面扩大了设备的可控范围,另一方面拓展
数据挖掘致力于从大量数据中寻找有用的知识,数据挖掘的强大功能,能帮助人们更透彻地理解数据,从数据中获取更深层次的信息,从而产生巨大的生产力,已经在电信、银行、保险、证券、