跨语言信息检索的查询消歧及查询扩展技术研究

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:yymmttjjjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络资源的全球化,不同语言国家、民族的互联网用户飞速增长。伴随着不同语言使用者对网络需求的日益加剧并且由于语言的多样性使得跨语言信息检索成为信息检索领域的研究热点。我们可以通过跨语言信息检索系统使用某种语言去查询用另外一种或若干种语言书写的文档。显然,这对于那些不擅长外语的用户具有重要意义。目前,汉英方面的跨语言信息检索已经取得很大进展。而蒙古语的相关工作却少之又少。蒙古族作为我国最重要的少数民族之一,蒙古语相关的信息检索研究具有特殊意义。由于用户的输入的有限性以及系统的成熟度有限,系统有时很难返回给用户需要的文档。因此,对跨语言信息检索领域中的查询消歧和查询扩展技术的研究,就具有十分重要的实际意义。本文的主要研究内容有:1.使用蒙汉双语平行语料库与蒙汉词典统计了一个蒙汉概率词典,并通过该概率词典与检索词之间的互信息对查询项进行翻译消歧。实验结果表明:本文提出的方法相比选择双语词典第一个翻译结果而言性能提升了6.8%。相比双语概率词典的方法提高了0.6个百分点。2.分析了一些传统信息检索模型,并提出了一种改进的权重计算算法,该算法首先对所检索文档进行归类,识别出查询词所属领域类别,根据查询词的所属类别对文档赋予不同的权重。并根据识别结果对查询词的各项赋予不同的权值以计算各文档得分。返回结果最终可以更好的满足用户对不同领域文档的关注程度。3.分析了基于全局文档的查询扩展、基于用户相关反馈的查询扩展和基于伪相关反馈(基于局部文档)的查询扩展技术,并分析了各种方法的优劣。在此基础上,本文提出了一种基于局部共现与分类主题相结合的查询扩展方法。该方法首先使用统计信息对用户输入的查询项进行分类识别,然后根据不同识别结果对不同类别文档赋予不同的权重,最后结合局部共现技术对用户输入的查询项进行扩展。实验结果表明:本方法相比基于词频统计的查询扩展方法提高了5.3个百分点。相比基于词共现的查询扩展方法提高了3.8个百分点。
其他文献
本文对短信分类的关键技术做了深入的讨论。结合贝叶斯分类的文本分类方法和Bigram分词的方法,并提出在移动手机终端进行双层短信过滤模型,对传统的文本分类进行了改进,有效
普适计算力图将以计算机为中心的计算模式转变为以人为中心的计算模式,其目标是构建一个计算和通信无处不在的环境,并在此基础上透明地提供以人为中心的服务。获取物体的位置信
随着集成电路制作工艺的不断发展和半导体尺寸的日益缩小,存储器的密度越来越大。随着存储器密度和复杂度的快速增长,存储器发生故障的概率越来越高,故障种类也越来越多,这使得存
目前绝大多数的文字识别(OCR)系统,只能识别单一文种的文字,无法同时识别多文种文字。而现有的大量蒙古文文档图像中不仅包含蒙古文,还混有汉文和英文。如果识别时仅使用蒙古
当前社会产生的大量数据需要更好的存储解决方案。近年来,基于网络技术的分布式存储,将数据存储在多个廉价设备上,已经得到了广泛的应用。但是考虑到系统的规模,系统中的构成节点
一个高质量的软件系统常常利用专家的设计经验,这个专家的设计经验称为设计模式。现在,设计模式被广泛地应用于各种软件系统设计中,但是这种架构的设计模式的相关信息在大量
鱼眼摄像机由于能一次性捕获视野达到180°甚至更大范围内的场景信息,在视频监控、机器人导航、目标跟踪及定位等领域有着广泛的应用,但是其存在的严重畸变又给鱼眼摄像机的应
工作流管理系统是实现企业信息化重要支撑系统之一,它通过协调多个人的活动、以协同完成某个共同的任务,从而有效的提高企业的经营效率。工作流引擎作为工作流管理系统的核心
随着云计算技术的发展,各种大小不一的数据中心纷纷出现,而这些数据中心往往存在各种虚拟机管理平台(如Eucalyptus, OpenNebula和OpenStack等),应用场景需求也完全不同,各种
无线通信技术随着科技的发展在不断的更新换代,基于无线信道的参数随机变化的特点,有关应对干扰所造成误码的讨论也在同步跟进。本系统采用新一代的混合自动重传(HARQ,HybridARQ)