基于复述的问题扩展技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:woodcock999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题扩展,即根据用户查询意图,在原始查询基础上通过添加更有利于改善检索结果的词、词组或者短语,或通过改写重构,使得检索结果更满足于用户查询意图。问题扩展的原因在于查询词与索引词的不匹配问题,即通常所谓的关键字不匹配问题,其根源在于自然语言的灵活性与复杂多样性。问题扩展技术的研究主要包括,扩展资源的构建与扩展算法的探究这两方面内容。本文基于复述的问题扩展技术研究,将从这两个方面对问题扩展进行探索研究,尝试从语义层面上解决关键字不匹配问题。一方面,本文介绍利用在线词典系统自动获取复述短语的方法构建扩展资源;另一方面,本文探索将复述短语资源运用于问题扩展的新方法,提出了基于语言模型检验的三种问题扩展算法。利用多在线翻译与词典系统抽取复述短语的方法,将复述短语抽取看成是统计机器翻译的过程。通过多在线翻译与词典系统,将源语言短语翻译成中间语言、再将中间语言短语翻译回源语言,通过中间语言建立起了源语言短语间的翻译模型。这种方法具有简易可行性的优点,并且获取的复述短语准确率接近70%,复述短语平均数目达到6个。对于问句分析,本文主要研究关键字确定与赋权。本文采用了规则与统计相结合的关键字确定方法,以及基于统计的关键字赋权方法。实验表明,本文所采用的方法相对于规则的关键字确定方法与赋权方法,准确率提高3%左右。本文提出了三种利用复述短语进行问题扩展的方法,分别是基于语言模型检验的N-Best同义问句扩展算法、基于语言模型检验的N-Best同义短语扩展算法,以及基于语言模型检验的N-Best同义短语改进扩展算法。本文将阐述这三个扩展算法的原理,并通过实验对比各方法的性能表现。在TREC9评测集上的实验表明:相对于原始查询,复述短语用于问题扩展后的召回率提高近3%,其中基于语言模型检验的N-Best同义问句扩展方法表现最好。
其他文献
在大规模程序中存在许多隐式编程规则,它们表达了程序的内在特性和特定需求;如果程序员忘记或者未意识到这些规则,那么就很容易将缺陷引入程序。隐式编程规则形态多样,可能包
随着各组织间数据交换的与日俱增,作为Web上数据存储和交换格式事实标准的XML变得越来越重要,但是不正确数据、不一致数据、不精确数据等XML中的劣质数据给XML上的有效查询处
随着多媒体技术的发展,数码拍摄设备走进了千家万户,高质量数码图片呈指数型增长的趋势。人们总是希望能够按照图像的内容(语义)进行管理,因此按照语义进行图像分类对于图片数据
面对激烈的市场竞争,企业需要不断的自我完善才能快速响应不断变化的市场需求。企业管理软件作为业务系统内重要的支撑手段,也同样面临着不断变化的软件需求。如何使得企业管理
随着国际贸易的日趋频繁,我国物流行业得到迅速发展。海运货代作为物流业的重要组成部分逐渐发展壮大,已经成为一个比较有竞争力的服务行业。伴随我国海运货代的迅速发展,该
21世纪以来,现代社会的发展与进步,特别是信息技术的广泛应用,推动了我国医疗水平快速提高和医疗信息化建设迅猛发展。但与发达国家相比,仍然存在不小的差距,还远远不能满足
人脸是人们区分不同对象的重要特征之一。人脸识别技术的研究对计算机视觉与模式识别的发展和应用有着重要的意义。特征提取与模式分类是人脸识别系统的两个重要步骤,稳定的
虚拟战场地形环境仿真中,地形模型具有广泛而重要的作用。由于计算机硬件水平有限,制约了大范围三维地形建模的速度和精度。目前解决该问题的方法是基于软件的方法,从建模的角度
自然场景图像中的文本字符是描述和认知场景内容的关键线索,对场景视觉信息的表达和理解具有重要价值。由于场景图像中的文本字符存在于复杂的背景之中,拍摄视角的不同使得文
本文针对双伸位堆垛机立体库的库位编码问题提出了归一化处理思想和单点双向扩展方法,打破了传统的最低能耗思想,建立了两级库位编码,根据入出库货物统计质量的排列和优化后的库位号来指导入出库货物货位的选择,并通过实例模拟验证,结果表明该库位分配优化方法大大节省了双伸位堆垛机的能量消耗,提高了堆垛机的周转频率及效率,有效地解决了新型立体库的库位配置问题。针对双伸位堆垛机拣选作业的路径行走特点,把拣选作业归结