论文部分内容阅读
自动问答系统能用准确简洁的答案回答用户使用自然语言提出的问题,作为一种新的信息获取方式,正受到越来越多的关注。传统的自动问答系统趋向使用结构化或半结构化的封闭式知识库系统,从而存在领域受限、更新滞后等缺点。互联网出现为自动问答系统重新构建知识库提供了新的机会。Web的数据容量趋于无限,并时刻处于动态增长和更新的状态中,这使得它成为非常具有吸引力的知识来源。基于以上背景,本文提出了一个基于Web的中文自动问答系统:WebQA的研究设计策略以及实现方法,以期利用Web丰富的知识库资源,实现基于中文自然语言的自动问答功能。
在问题处理过程中,WebQA利用第三方的词法分析系统ICTCLAS进行分词和词性标注,进而识别出问题关键词和疑问代词。为保证效率并降低实现复杂度,WebQA掘弃了机器学习的方式,而是使用了疑问代词、句式识别结合启发式规则的方法来对问题进行分类。同时利用预定义模板对关键词进行必要的扩展和重写,以形成查询串提交到Web搜索引擎中。在信息检索阶段,WebQA使用成熟的Web搜索引擎产品:Google来进行问题答案检索,并且只对搜索结果中的Google网页片断(GoogleSnippet)进行处理,以避免下载和分析整个网页耗费大量时间。在答案处理阶段,WebQA再次利用ICTCLAS识别出命名实体,找到备选答案,并创造性地建立了一个基于事实的答案评价模型。在该模型中,备选答案的信度分值量化为支持该答案的事实的信度与相关度的乘积。而在事实的相关度计算上,WebQA引入并改进了已有的数据驱动的计算模型,结合统计概率的方式对事实与问题的相关度进行综合评价。最后,WebQA还使用一个简单的、预定义的阀值,对答案进行聚类操作,以便正确回答列表型提问。
实验结果表明,本文设计提出的WebQA自动问答系统在回答句法简单、基于事实的提问时,具有良好的召回率和正确率,可对原有的知识库有限、面向特定领域的传统中文问答系统起到重要的辅助和补充作用。