论文部分内容阅读
当今是一个互联网的时代,也是一个信息爆炸的时代,用户的检索需求正在逐渐地发生变化。现有的搜索引擎一般只提供基于关键字组合的查询,根据用户输入的查询条件返回一个包含关键字或满足查询查询条件的排序的网页集,无法满足精确搜索的需求。基于自然语言处理技术的问答系统是对传统搜索引擎的一种改进。问答系统输入的是以自然语言形式表达的问句,通过提取问句中的查询信息,解析用户的查询意图,然后根据查询意图从文档中精准定位答案所在,最终将自然语言形式的答案抽取出来返回给用户,而不仅是将问题的答案文档返回给用户。这不仅提高了检索的精确度还更好地满足了用户的检索体验。本文的主要工作是对自动问答系统及其应用进行研究。首先给出一种自动问答系统的整体设计方案,然后对其中的问题分类、关键词扩展和答案抽取三个核心模块进行了详细设计和算法改进。在问题分类模块,在分析现有分词和分类模型的基础上,提出一种朴素贝叶斯和SVM(Support Vector Machine)相结合的问题分类算法;在关键词扩展模块,在总结抽取流程的基础上提出一种知网和同义词词典相结合的关键词扩展算法;在答案抽取模块,提出一种基于语义依存关系的答案抽取算法。最后,给出了一个自动问答系统的应用实例,即基于Nginx,扩展Nginx原有的指令集并将问答处理部分封装成可动态加载的模块,在此基础上实现了一个可应用于实用的自动问答系统服务端。