论文部分内容阅读
我们处于一个信息极其丰富的时代,人们对于快速准确地获取信息产生极大的需求。搜索引擎以其使用方便、反应迅捷而备受人们欢迎,成为信息获取的最主要方式。然而搜索引擎以关键词的检索方式很难清晰表达用户的意图,并且以网页集合的方式返回结果仍然需要用户自己手动查找答案。因此自动问答系统应运而生,但是传统的自动问答系统存在信息覆盖不全面、更新不及时的缺陷,并且需要维护一个庞大的知识库。为了发挥两者的优势,本文拟将两者结合起来,设计与实现一个改进的基于搜索引擎的中文自动问答系统。本文的主要工作如下:(1)改进Site Q算法,提出Topic-Site Q算法:首尾段落和首尾语句对语义有着较大的贡献,本文将其以恰当权重融入Site Q算法,提出关联首尾段落和首尾语句的多特征融合段落检索算法Topic-Site Q:采用多特征融合的算法计算首尾语句的语义相似度,并以一定的权值体现它们对段落相关度的贡献,同时提高首尾段落的评分值,最后根据该评分值进行段落排序并返回候选段落集。(2)改进基于语义依存树的答案抽取算法:基于语义依存树的答案抽取算法主要对语义和语法结构进行考察,考察方式单一不够全面。词频作为重要的语义特征之一,应该在答案抽取算法中体现该特征。本文对基于语义依存树的答案抽取算法进行改进,将关键词出现的频率考虑进去,利用对数线性模型将两者融合在一起,提出改进的基于语义依存树的答案抽取算法。(3)设计并实现了一个改进的基于搜索引擎的中文自动问答系统,并根据改进的两个算法对该系统进行优化。先是详细的分析了系统的需求,然后描述系统的总体结构并给出系统结构图。在详细设计与实现部分,分模块详细论述各个模块的功能、处理流程、实现细节以及使用的核心算法及其改进。(4)为了验证提出的优化方法的有效性,人工构建问题测试集对算法和系统的改进效果进行实验,计算两个算法改进前后以及系统使用改进后的算法的MRR值、查准率、召回率和F1值并进行对比分析。实验结果表明,算法的改进效果良好,使用改进的算法后系统性能有所提高。