基于网格的中文语音文件检索技术的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shibin19860211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音文件检索技术,可以有效地帮助人们从海量的语音信息资源中找到与自己需求相关的信息,是解决信息爆炸问题最有效的技术手段。随着语音识别技术的不断发展,将语音识别技术与传统的文本信息检索技术相结合来进行语音文件检索已经成为一个趋势。然而,语音识别系统的效果,将严重影响语音文件检索的性能。在大多数情况下,由于模型不匹配或者语料噪声的影响等,使得语音识别的效果往往不能令人满意。针对如何将语音识别技术与信息检索技术有效结合这一问题,本文从语音文件的表示形式及信息检索模型两方面进行考虑,提出了一种新的中文语音文件检索方法。一方面,对于语音文件的表示形式,采用Syllable-lattice结构。Lattice可以提供语音识别的多候选结果,它能够一定程度上减轻语音识别的误识对信息检索系统的影响。同时,基于子词的索引策略—Syllable(音节),可以有效地解决查询请求中的OOV词的问题。另一方面,对于信息检索模型,本文研究了信息检索相关技术,在传统的查询似然信息检索模型中引入了文件长度先验概率。实验表明,基于Syllable-lattice的检索系统的检索效果大大优于传统的One-best,其中,在信息检索模型中引入文件长度先验概率信息,可使基于Syllable-lattice的语音文件检索系统的检索效果达到最优,比基线检索模型提高了约30%。实验证明了所提方法是正确的、可行的、有效的。
其他文献
天波超视距雷达(Over-the-Horizon Radar,OTHR)的工作载频处在高频段,大气中的电离层会反射该频段电磁波,OTHR的波束因此变为下视方式并实现视距外探测,也因此具有作用距离远
综合了传感器、嵌入式计算、网络和无线通信等技术的无线传感器网络(WSN:Wireless Sensor Networks),是由分布在监测区域内大量的传感器组成,它可以实时感知和处理数据,并把这些
在实际工程中,受制造工艺和工作环境等因素的影响,阵列天线的控制参数通常存在一定的误差。这些不确定性误差会引起天线阵激励幅度和相位的不确定性,从而导致天线的性能参数
超宽带技术自可用于民用产品后得到业界的广泛关注。超宽带系统采用在时域发送极窄脉冲信号,频域产生相应的宽频带,可淹没在噪声中的信号形式,使得超宽带系统不论在民用还是
随着网络技术和应用的发展,特别是以视频会议、视频点播为代表的新型多媒体业务的涌现,人们迫切要求互联网能够提供组播的服务。覆盖网组播由于其在可部署性等方面的重要优势
分布估计算法是将概率模型引入到优化算法当中而形成的一种新型的优化算法,它通过统计学习的手段来构建概率模型,并利用对模型的采样来实现种群的进化,其中贝叶斯优化算法是