论文部分内容阅读
“问答系统”是对用户以自然语言形式提出的问题给出一个明确的答案。问答技术是自然语言处理领域的一个研究热点,近年来受到了越来越多研究者们的关注。随着互联网的快速发展,人们面对的信息越来越多,而且还可能存在大量的重复、错误信息,信息的正确抽取越来越困难。因此,问答系统的研究变得越来越重要。长期以来,“如何提高问答系统的性能”,一直是人们努力探索的一个问题。在以往的研究中,已经有过采用多引擎技术提高问答系统性能的例子。一种传统的方法就是把查询问题通过系统中所有的QA引擎,类似于元搜索中采取的技术。然而,这种方法的一个显著的缺点就是系统资源利用率太低,特别是对于具有大量QA引擎的问答系统。另一种方法是为系统中的多个QA引擎人工编写一种组合策略。然而,这种“通过预定义策略组合多个QA引擎返回结果”的QA方法的弊端不仅体现在人工建立组合策略的花销上,这样的QA系统还明显缺乏灵活性和可扩展性。与以上两种方法不同,本文提出了一种自动策略学习的QA方法,并使用该QA方法建立了一种基于策略学习的问答系统模型,用以提高问答系统检索答案的准确率和效率。系统中使用了多个独立的采用不同答案检索技术的QA引擎,本文提出的QA方法实际上是选择、整合、应用学习技巧的一套操作过程。在本文设计的“基于策略学习的多引擎中文问答系统”中,“策略”通过“策略学习”的过程获得。“策略学习”算法包括两个主要步骤:确定系统中QA引擎的调用顺序,以及停止调用其它QA引擎的条件。对于一个给定的查询问题,本文通过“策略学习”得到的“策略”调用了系统中最适合其检索答案的QA引擎,并且通过其它QA引擎来验证答案,直到返回答案的置信度达到一定阈值为止。在本文进行的实验中,“基于策略学习的QA”方法相比较“简单路由QA”方法而言,系统性能有显著的提高。即使与“人工组合QA”方法相比,本文提出的“基于策略学习的多引擎QA”方法在系统检索答案的准确率和时间效率方面也都取得了更好的效果。