跨语言信息检索中消歧算法的研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:kinggaoblog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言信息检索是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术。研究目的是希望在信息时代,克服语言壁垒,提供跨语言的文献信息检索服务。查询翻译是跨语言信息检索的主流方法,但由于查询的语义结构松散,并且语境狭小,因此,伴随翻译不可避免地产生的歧义性问题较为突出。针对这个问题,提出了相当多的消歧方法,包括基于平行语料库的翻译技术、基于词的共现技术的消歧方法、查询扩展、词组翻译等。 基于共现技术的消歧方法通过统计提问词的各个译文与查询中其他词在语料库中的共现频率,并进行比较,将共现频率高的译文可代替该提问词以便翻译成目标查询。由于该方法实现方便并且通用性很高,因此成为一个重要的研究课题。 本文的主要工作包括:(1)通过对几个具有典型性的基于词共现技术的消歧方法的分析和研究,总结出了一些具有启发意义的原则和经验,其中包括采用概率化方法和兼顾全局性问题。(2)然后,通过一个从贪心算法衍生出的算法研究最大相关性原则,指出它与概率化方法的矛盾性。为了更好地发挥概率化方法的作用,本文提出了“概率加权平均原则”,并在此基础上设计了新的算法且详细给出了求解的方法。(3)通过实验,验证了“概率加权平均原则”的有效性,并且与其他方法相比,准确性有较为明显的提高。(4)另外本文也探讨了其他翻译技术与新算法相结合后的效果,实验结果表明采用查询扩展技术可以一定程度上改进新算法的准确性。
其他文献
视频对象的分割一直是数字视频领域的研究热点和难点,至今为止已经有上千种分割算法,并且不断有新的理论应用到视频分割中来。在视频对象中,人们感兴趣的一般是运动的对象,运
随着对Agent系统研究的逐步深入,移动Agent技术己经从过去的理论探索阶段进入到实用阶段。移动Agent系统的开发平台和执行环境不断出现,使得移动Agent系统安全性日益成为一个
人体的对称性不仅发生在外形,在骨胳和器官结构方面上也存在许多近似对称。在外形方面,对称通常表现为镜像对称。如果某个人的一种器官医学图像比其他人的器官图像显得更不对称
随着计算机和网络技术的发展,使得人们通过网络来协作完成同一件工作成为可能。计算机支持的协同工作(Computer Supported Cooperation Work: CSCW)研究领域正是在这样的背景
作为互连网络中一种流行的拓扑网络,k-ary n-cube网络目前面临着多应用、多业务以及业务分布不均等问题,这就要求设计的路由算法要有较强的负载均衡能力,以及所采用的死锁解
基于构件的软件开发方法能够有效地提高软件开发的质量和效率,而构件组装技术是实现基于构件的软件开发的关键。目前,构件组装技术还多半停留在手工组装的阶段,自动化甚至半
网络中心战是人类战争进入信息化战争时代后,所提出的一种最新的作战思想和作战方式。它的实质是利用计算机网络把地理上分散的部队、各种探测器和武器平台连接成一个整体,实现
CMMI的全称为:Capability Maturity Model Integration,即集成能力成熟度模型。CMMI受到了世界各地许多公司的重视,得到了极为广泛的认可。然而,CMMI的应用不仅需要对CMMI有很深
近年来,二元删除信道模型由于其可用来模型化互联网传输系统而受到广泛关注。基于稀疏随机二部图模型的LDPC纠删码以线性时间复杂度的编译码算法和可任意逼近删除信道容量限
步态识别是生物识别技术研究中的新领域,它旨在根据人们走路的方式进行身份识别。步态识别以远距离识别、非侵犯性和难以隐藏等特点引起了视觉研究者的浓厚兴趣,成为近年来计算