问答系统中信息检索和答案抽取的研究

来源 :鞍山科技大学 辽宁科技大学 | 被引量 : 0次 | 上传用户:clear0102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎提供了大规模文档集的检索接口,但是用户必须先把信息需求表达为检索词序列,然后再由搜索引擎检索出与需求相关的文档。问答系统是新一代的搜索引擎,它先接收自然语言描述的问题,然后返回问题的答案。问答系统自动从相关文档中查找答案,满足了用户对答案本身的需求。 本文设计了一个中文问答系统Q-Killer,它采用自然语言处理与传统的信息检索相结合的技术提取答案本身。Q-Killer主要由问题分析、信息检索和答案抽取三个模块组成,本文重点介绍了其中信息检索和答案抽取的研究工作。 在信息检索模块中,Q-Killer解决了倒排索引的两个关键问题。首先设计了一种适用于汉语的三层索引文件,这种文件是在对汉语词典进行统计分析的基础上设计的,实验表明对于大规模的中文文本检索,三层索引文件能够有效地降低索引查找的复杂度。同时针对倒排文件中高频词的问题还提出一种有选择的文档索引机制,只对高频词权重较高的文档创建索引,实验表明这种机制在不影响检索质量的情况下提高了与高频词有关的检索效率。 Q-Killer返回的答案由两部分组成——答案本身和答案的支持信息。答案本身是根据相应的答案模板从相关文档的动态摘要中抽取的,答案的支持信息则由相关文档的动态摘要组成。本文设计了一种基于机器学习中自扩展技术的答案模板生成算法,从大规模未标注语料库中学习并生成答案模板及其准确度。 本文提出了一种基于滑动窗口的动态摘要算法,并构造了动态摘要的评测模型,与Google和百度对比的实验证明该算法生成的摘要能够言简意赅地概括文章的相关内容,其综合评分分别提高了5%和11%。最后使用动态摘要进行查询扩展,从而得到更多与该摘要相关的答案。
其他文献
近年来,移动智能网(MIN,Mobile Intelligent Network)业务在国内的发展迅速。随着用户量的不断增加,移动智能网网络变得越来越复杂,对外接口增多,系统负荷也随之增加,于是,移动智能
摘要:自组织系统中理性或自私个体如何展开合作是个有意义的问题。大量研究表明,亲缘关系,网络结构,群体选择,声誉系统等都能帮助理性群体中涌现合作行为。演化博弈理论为这一
HG系列大幅面高精度扫描仪作为软拷贝摄影测绘系统的一部分,应用在航空摄影图片的数字化方面.通过扫描数字化,将容易损坏的破旧图纸和易老化的胶片以数字的形式保存起来,并对
随着计算机应用技术、网络技术以及多媒体技术的飞速发展,各级各类学校普遍通过提供全新的教学环境,运用先进的教学手段来设计教学活动。这使得以计算机、投影机等多媒体教学
如何在短时间内给出正确的接触网故障检修方案是一直以来迫切需要解决的问题。利用专家系统来生成接触网检修方案是一种较好的思想。本论文首先简单介绍了专家系统的基本概念
信息社会的高度发展要求教育必须改革以满足培养面向信息化社会创新人才的要求。同时,信息社会的发展也为这种改革提供了环境和条件。信息技术在教育中的广泛应用必将有效地促
Web信息检索系统(搜索引擎)作为互联网上最主要的信息搜索工具,在各个领域都已得到广泛应用。然而,由于网络信息量迅猛增加和网络信息组织的无序性,传统中文搜索引擎已经无法满
随着信息时代中的电子政务、电子商务、电子金融活动日益频繁,现有的网络较完整安全解决方案一公钥基础设施PKI框架中同时实现身份认证和授权管理的功能模式,已不能满足当代
WebGIS是当前GIS发展的一个重要方向,是GIS走向“社会化”的有效途径,也是构建“数字地球”的核心平台之一。虽然WebGIS有多种实现方式,但是随着WebGIS应用的不断加深,原有的基于
工作流(Workflow)技术是进入90年代以后计算机应用领域的一个研究热点。对工作流技术进行深入的研究对于提高我国企业的信息化程度、运行效率以及竞争能力都有着重要的意义。