基于音节网格的汉语语音文档检索方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:aya05901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和多媒体技术的发展,被人们记录并保存在计算机中的语音数据越来越多。为了更高效地访问、管理和利用这些语音资源,必须实现基于语义内容的语音文档检索技术。所谓语音文档检索是指,根据用户输入的查询请求,在语音资源中搜索和返回与之相关联的语音段或语音文档的处理过程。语音文档检索技术与语音识别技术紧密相关,它总是利用语音识别技术为资源库建立语义层级的索引。然而,语音识别结果中普遍存在的较高的错误率和对词表外词的误识等问题也直接困扰着检索性能,研究者不得不求助于子词网格(Lattice)形式的语音识别结果,通过子词规避词表外词问题,通过Lattice这种多候选形式向检索者提供更准确的索引内容。在汉语语音文档检索研究中,采用基于音节Lattice的检索技术,业已成为了研究者们的共识。语音文档检索是一个未成熟的且极具潜力的研究领域,还存在很多问题需要解决。其中的一个核心问题就在于,Lattice并不是一个易于索引的数据形式,它的有向图结构,以及正确信息与错误信息相混杂的特点,不但直接导致了传统的检索方法性能不佳,而且也需要较大的存储开销和搜索时间。因而,研究适合音节Lattice特点的,且能够同时兼顾检索精度、索引尺寸、检索速度三方面性能指标要求的汉语语音文档检索方法,就有着非常重要的理论意义和实用价值。本文针对音节Lattice的特点,首先研究了三种实现机理不同、性能各有侧重的汉语语音文档检索方法,然后针对Lattice识别结果的错误率下界制约检索精度进一步提高的问题,研究了两种能够改善Lattice错误率下界的有效方法。论文的具体研究内容如下:1)提出了依赖词检出实现的语音文档检索方法,直接保存音节Lattice作为索引,并采用词检出技术来实现检索任务。提出了置信测度和发生频次相结合的相关度计算方法,提出了将传统的词检出技术拆分为离线和在线两个阶段的分解方案,从而提高了在线阶段的检索速度。该方法取得较好的检索精度,其值相当接近于在Lattice的最优候选上所得到的检索精度,但由于必须存储和搜索Lattice索引,因而索引尺寸和检索速度指标都还需要进一步的提升。针对Lattice索引尺寸较大,冗余较多的现象,提出了基于音节后验概率直方图的Lattice有效成分分析方法,研究了保留有效成分去除冗余成分的索引去冗余方法。实验结果表明,该方法能够以检索精度小幅度的下降为代价,大规模的去除索引中的冗余信息。2)提出了基于音节倒排索引的语音文档检索方法,利用倒排索引形式的特点,在保留音节Lattice主要内容的前提下,有效缩减索引尺寸。研究了通过放松匹配过程中的路径约束条件来提高检索精度的匹配机制,提出了两种有效的匹配机制:时间匹配机制和位置匹配机制。在采用位置匹配机制的检索方法中,将音节Lattice解释为具有特定位置标号的若干竞争集的级联,给出了相应的搜索匹配方法,以及匹配路径处于特定位置的后验概率值的计算方法。研究了根据音节候选在其竞争集中的名次来修正文档相关度的加权方法。实验结果表明,两种匹配机制都使检索精度有小幅度的提升,其中位置匹配机制提升更明显,且名次加权方法又进一步提高了该检索精度。提出了能够灵活控制检索速度的基于后验概率门限的剪枝方法。3)提出基于邻接音节后验概率矩阵的语音文档检索方法,旨在通过建立文档层级的索引,大规模地提升索引尺寸和检索速度指标,为实现面向大规模语音资源库的检索系统创造条件。提出了K步邻接音节对的概念,以刻画索引中音节间长距离的关联性,利用Lattice的邻接后验概率矩阵来表示Lattice的内容,进而综合各Lattice的邻接矩阵,计算邻接音节对在语音文档中的后验概率值,存储语音文档的邻接音节后验概率矩阵作为文档级索引。实验结果表明,虽然检索精度有5%左右的下降,但索引尺寸和检索速度指标都基本达到了文本检索技术的水平。研究了利用语音中韵律信息来修正文档相关度的方法,初步尝试了三种韵律加权方法。其中能量加权方法最有效,检索精度提升了约2.7%。4)分析了制约检索精度的根本原因。提出了两种基于更低Lattice错误率下界的检索精度提高方法:一种是基于扩充Lattice的方法,另一种是基于词片语言模型的方法。前者在语音识别技术的框架之外,通过建立识别结果和识别错误之间关联关系的统计模型,并基于Dempster-Shafe证据理论,估计特定音节被识别器遗漏的概率,研究了扩充Lattice的生成方法。实验结果表明,扩充Lattice相比于原始Lattice,错误率下界下降了1.7%,检索精度提高了约4%。后者在语音识别框架内部,通过引入词片基元来改善语音识别结果的准确性,讨论了词片的概念,研究了基于最大互信息准则的词片自动选择算法,通过实验证明了引入词片有助于改善语音识别系统的识别率和检索系统的检索精度。
其他文献
目的对2型糖尿病人的门诊口服降糖药用药做初步的分析,以便了解此类药物用药的合理性。方法采用DDD分析法,分析门诊2004~2006年3年中口服降糖药用药频度、用药费用,随机抽取
通过对住院患者小组及一对一血糖监测的健康教育,让患者掌握住院期间血糖管理及出院后血糖监测的方法、目的及血糖仪的使用、比对等,保证患者出院后能及时进行血糖监测,保证
会议
图书馆作为学校传播知识、情报、信息的第二课堂,在提升师生职业综合素质方面发挥着不可替代的作用。因此,充分重视图书馆建设,最大限度地利用馆藏的文化资源以及对馆员队伍素质
文书档案是政府在行政管理和领导活动中形成的有关党群管理、财务管理、人事管理、业务管理等活动的真实原始记录。文书档案既是一个部门工作历程的缩影,又是管理建设现状的记
<正>香港因为有限的地域空间,市场一直是电影行业关切的问题。20世纪50年代以后,台湾、东南亚市场一直是香港电影的重要支撑,香港电影就此开拓进取,一度在香港市场战胜了以好
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
机器人教育对机器人工程人才的培养、机器人及智能装备产业的发展起着举足轻重的作用。本文在分析我校开展机器人教育背景的基础上,讨论了应用型本科院校与传统重点本科院校、
企业文秘与档案管理工作一体化已经成为一种趋势,如何将二者有效结合起来成为企业管理工作的重心之一。传统管理方法下,文秘工作主要负责企业、领导日常工作安排,帮助企业管理人
随着当今社会和经济信息化的快速发展,工程档案在其传统的管理模式和服务手段上势必要适应这一新形势,本文通过阐述信息化新形势下对工程档案在管理模式上的现状分析,进而提出如
陕西是一个具有悠久历史文明的古城,据有关调查表明,陕西的体育文化也非常富有民族文化特色,并且陕西不同的地城内的体育文化也呈现出不同的表现形式。文章首先对体育文化的内涵