论文部分内容阅读
当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。目前的Google和百度等搜索引擎是人们从网络中获取信息的主要途径,然而,这些传统的搜索引擎随着用户对信息精确性和时间高效性要求的提高,暴露出一些弊端,例如,它按照关键词组合的形式分析用户输入的查询语句,这会对用户的搜索目的产生偏差,返回给用户的结果是大量网页的集合,需要用户去甄别和查找,而非用户希望得到的准确简洁的答案。在传统搜索引擎的基础上,新一代的自动问答系统因为其高效实用的特点,成为信息检索领域的研究热点和趋势。一方面,它方便用户使用自然语言提问,另一方面,返回给用户的是最终的答案,具有较高的理论研究价值和广阔的应用前景。自动问答系统一般主要包括问题分析,信息检索和答案抽取三个模块。其中答案抽取是问答系统的最后关键步骤,能否做好这一步关系着提交给用户的答案是否准确和高效。本文主要针对最后一步答案源获取方法进行研究,结合前人的研究成果,在Web网页的抓取,网页去重,网页信息提取等方面进行了研究,主要进行了以下工作:(1)针对用户提出的问题在Web中搜寻对应的答案网页,在传统搜索引擎的平台上,将相关的答案网页保存到本地。在本实验设计中,我们借助百度知道的知识库,通过Crawler爬虫程序,依据相应的抓取算法,从URL链向深度和广度抓取一定数量的网页,作为我们下一步信息提取的答案源库。(2)在抓取网页文档的过程中,针对网络中存在的大量内容相同和相似的网页,会增加系统的开销和降低效率。通过借鉴前人在网页去重方面的相关研究成果,引入了基于文本块,利用shingle和基于集合统计的网页去重方法,并给出了测评的标准。(3)在对网页文档信息提取的过程中,可以将网页标签,无关的广告和图片等信息进行过滤,利用DOM树的节点结构来结构化表示网页内容,从节点中提取出网页文档的文本信息,为后续的答案提取做准备。设计实验方案,给出相关说明。