开放域问答系统答案源获取方法研究与实现

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:zhanghua_it
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。目前的Google和百度等搜索引擎是人们从网络中获取信息的主要途径,然而,这些传统的搜索引擎随着用户对信息精确性和时间高效性要求的提高,暴露出一些弊端,例如,它按照关键词组合的形式分析用户输入的查询语句,这会对用户的搜索目的产生偏差,返回给用户的结果是大量网页的集合,需要用户去甄别和查找,而非用户希望得到的准确简洁的答案。在传统搜索引擎的基础上,新一代的自动问答系统因为其高效实用的特点,成为信息检索领域的研究热点和趋势。一方面,它方便用户使用自然语言提问,另一方面,返回给用户的是最终的答案,具有较高的理论研究价值和广阔的应用前景。自动问答系统一般主要包括问题分析,信息检索和答案抽取三个模块。其中答案抽取是问答系统的最后关键步骤,能否做好这一步关系着提交给用户的答案是否准确和高效。本文主要针对最后一步答案源获取方法进行研究,结合前人的研究成果,在Web网页的抓取,网页去重,网页信息提取等方面进行了研究,主要进行了以下工作:(1)针对用户提出的问题在Web中搜寻对应的答案网页,在传统搜索引擎的平台上,将相关的答案网页保存到本地。在本实验设计中,我们借助百度知道的知识库,通过Crawler爬虫程序,依据相应的抓取算法,从URL链向深度和广度抓取一定数量的网页,作为我们下一步信息提取的答案源库。(2)在抓取网页文档的过程中,针对网络中存在的大量内容相同和相似的网页,会增加系统的开销和降低效率。通过借鉴前人在网页去重方面的相关研究成果,引入了基于文本块,利用shingle和基于集合统计的网页去重方法,并给出了测评的标准。(3)在对网页文档信息提取的过程中,可以将网页标签,无关的广告和图片等信息进行过滤,利用DOM树的节点结构来结构化表示网页内容,从节点中提取出网页文档的文本信息,为后续的答案提取做准备。设计实验方案,给出相关说明。
其他文献
G蛋白偶联受体(GPCR)的结构特征及其在信号传导中的重要作用,决定了其可以作为重要的药物靶标, GPCR在制药领域中占有极其重要的地位。由于生化实验方法很难得到其三维结构,所以
当今社会,生物识别技术的迅速发展,带动了手写体笔迹鉴别(Handwritingidentification,HWI)的发展,如今手写体笔迹鉴别已经成为计算机视觉和模式识别领域中的一个研究热点,而且基
图像自动分类管理是数字化信息时代人们的迫切需求,同时也是智能化信息处理领域研究的难点之一。人类视觉系统通过对外界环境感知能够快速抽取图像语义信息,基于这一机制,研究基
不规则板材圆形优化排样在工业设计与生产中经常用到,具有很高的理论意义和应用价值。一个排样效果好,效率高的求解算法是该领域所要达到的目标。本文深入研究了排样问题的研究
虚拟化技术是创建灵活动态的企业级设施架构的关键机制。随着多处理器技术的发展,计算能力有了很大提高,也加速了虚拟化技术这一关键机制的发展。虚拟化技术可以屏蔽底层复杂
随着网络技术的不断发展,互联网应用领域也在迅速的发展。人们不再仅仅要求信息应用的功能富集化,对服务质量也提出更多要求,特别要求应用的稳定性和安全性。Web ActiveX组件作
字符串匹配问题是文本信息处理领域中的一门非常重要的课题。随着网络和信息技术高速发展,极度膨胀的信息量,使得对信息处理的性能和效率要求越来越高,在某种程度上,字符串匹
自动布图技术在航空航天等领域应用广泛,准确快速的自动布图系统可以极大的提高航天设计人员的工作效率。本文针对航天自动布图工作中实际遇到的潜通路检测问题及电缆网研制问
分子动力学(Molecular Dynamics)是在原子级模拟固态、液态物质的主要计算方法,用于研究物质微观结构、热力学性质及平衡输运性质等,广泛应用于物理科学、材料科学、生命科学
图像去噪是图像处理的经典主题。我们的目标是从噪声污染的图像中还原出一个干净的图像。几十年来,发表了很多处理噪声的算法,去噪性能一直稳步提高。这其中的大多数针对的是常