本体论和统计语言模型相结合的跨语言信息检索研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sisi200713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息检索的需求,而普遍存在的目标语译词准确性和检索结果的精确度偏低问题成为制约跨语言信息检索研究大步向前发展的瓶颈。本体论和统计语言模型在自然语言信息处理领域分别取得的成功,为人们利用知识和统计方法实现跨语言检索问题在理论和实践方面指明了方向,对于信息检索及自然语言处理研究具有重要的理论意义和实用价值。本文以汉-英两种语言之间的跨语言信息检索为研究对象,提出了一种本体论和统计语言模型相结合的混合语言模型,给出跨语言信息检索的一整套解决方案。作为跨语言信息检索的重要环节,首先研究了混合语言模型的建模问题,该语言模型的结构由词义本体表示及语言本体知识组成,在此基础上,研究并实现了词义本体的构建、语言本体知识的自动获取等问题。通过对自然语言处理有关问题的应用评价,验证了所提出混合语言模型的有效性,进而将其应用于用户查询的目标语译词选择以及目标语言检索文档的排序,在该混合语言模型的指导下实现了一个跨语言信息检索的实验平台。具体地讲,本文从如下几个方面进行了研究:  1.研究了跨语言信息检索的模型建模技术。分析了目前困扰跨语言检索精确度偏低问题的主要原因,提出了一个本体论和统计语言模型相结合的混合语言模型,有效地解决了目前的检索模型表达和处理语义层面信息不完全,未能很好地适应主题多变的应用环境等相关问题。该语言模型的结构由词义本体表示及语言本体知识组成,综合考虑了自然语言句子中出现的特征项与其同现信息在语义、语用、词法、句法等方面的用法,力图在采用一种概率估计的前提下,引入本体知识库的支持,寻求有效提高跨语言信息检索精确度的改进方法。  2.研究了词义本体表示及语言本体知识的获取技术。探讨了词义本体的构建以及有效的语言本体知识表示方法,提出利用机器学习方法自动获取语言本体知识获取的策略,提出将从单语言语料中获得的语言本体知识应用于解决跨语言信息检索问题的方法。语言本体知识将通过机器学习方法从训练语料中自动获取,实现技术主要以语料处理为基础,获得特征项在上下文环境中的语义、语用、句法等方面的用法,以一种量化的形式保存,作为特征项的用法描述,对有关全部特征项的描述则构成了一个语言本体知识库。该问题的研究也避开了可利用的大规模双语语料不易获得的问题。  3.研究了源语言用户查询的目标语译词选择技术。对比了几种跨语言信息检索中比较实用的实现用户查询的译词选择方法,在此基础上,提出并实现了两种跨语言信息检索的解决方案:一种方法是目标语言译词选择技术与文档分类技术相结合,其中译词选择采用领域双语词典结合语料库的方法实现,分类器通过两种不同语言的语料分别训练得到。另一种方法是基于本文提出的混合语言模型选择用户查询的目标语译词,分别给出扩展查询译文的不同组合,然后根据获取的源语言本体知识,考察每种组合在语义、语用、句法等方面与所获得语言本体知识的匹配程度,重点解决词义消歧问题。  4.研究了跨语言信息检索结果文档的排序技术。提出了基于语言本体知识实现目标语文档排序的方法,主要技术是利用语言本体知识考查源语言用户查询与目标语检索文档的匹配相似度。在此基础上给出了跨语言信息检索系统的基本框架,构造了一个完整的跨语言信息检索的实验系统,最后通过对跨语言信息检索结果的评价及与其它方法的比较,验证了本文所提出方法的有效性和可行性。
其他文献
随着科技的进步,科学研究与工程实践中出现的优化问题也变得越来越复杂,传统优化方法在解决这些问题时,存在计算复杂度过高的局限。因此,计算机科学家们提出了许多模拟物理现象,或
随着计算机和网络技术的快速发展以及应用程度的不断提高,计算机网络安全已成为经济发展的关键,同时也是国防安全的重要组成部分。对入侵和攻击行为的检测与防范,保障计算机系统
支持向量机作为近十年来最为成功的机器学习方法,在很多应用领域取得了很好的成绩,包括文本分类,手写字符的识别,人脸识别等等。它和其他机器学习方法最大的不同在于,它遵循了统计
本文对自动指纹识别的若干技术进行了探讨,综合运用图像处理、模式识别、计算机应用等理论和技术较为深入的研究了指纹奇异点提取、指纹分类和指纹图像细化等问题。全文共分
图像颜色复原,主要是给灰度图像或者黑白图像添加色彩的处理过程。颜色复原后的图像既要保持灰度图像的形状信息,又要具有合理的色彩信息。颜色复原技术增加了图像处理的艺术
随着无线传感器网络在军事、民用等领域的广泛应用,无线传感器网络中的数据可靠传输成为了研究热点。传统加密机制无法解决无线传感器网络中破坏数据可靠传输的内部攻击,可信机
本文研究讨论了一种全新的位基服务算法,从数据挖掘的角度看待LBS问题。这样解决了原来依靠移动运营商基站或者GPS的方案在某些场景下低效或者完全无法工作的问题。所有应用这
电信专题分析(又称决策分析)为解决特定的问题而提出,是一个为特定问题组织数据,挖掘信息的过程。在电信专题分析系统领域,一方面由于起步比较晚,一方面由于决策分析发展迅速而导
随着近年来Internet的爆炸性增长,其安全性问题日益突出。IPSec(IP security)是在IP层实现数据通讯安全的协议,在IP层实现的主要优点有:1)高层的安全技术仅仅保护单个高层协议,而I
Internet的飞速发展使其成为日益重要和最具潜力的资源。WWW作为一种新的信息资源,为计算机领域新技术的产生开辟了新的领域,同时也为传统技术的研究提出了新的方向。 研究