基于策略学习的多引擎中文问答系统的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:samfl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“问答系统”是对用户以自然语言形式提出的问题给出一个明确的答案。问答技术是自然语言处理领域的一个研究热点,近年来受到了越来越多研究者们的关注。随着互联网的快速发展,人们面对的信息越来越多,而且还可能存在大量的重复、错误信息,信息的正确抽取越来越困难。因此,问答系统的研究变得越来越重要。长期以来,“如何提高问答系统的性能”,一直是人们努力探索的一个问题。在以往的研究中,已经有过采用多引擎技术提高问答系统性能的例子。一种传统的方法就是把查询问题通过系统中所有的QA引擎,类似于元搜索中采取的技术。然而,这种方法的一个显著的缺点就是系统资源利用率太低,特别是对于具有大量QA引擎的问答系统。另一种方法是为系统中的多个QA引擎人工编写一种组合策略。然而,这种“通过预定义策略组合多个QA引擎返回结果”的QA方法的弊端不仅体现在人工建立组合策略的花销上,这样的QA系统还明显缺乏灵活性和可扩展性。与以上两种方法不同,本文提出了一种自动策略学习的QA方法,并使用该QA方法建立了一种基于策略学习的问答系统模型,用以提高问答系统检索答案的准确率和效率。系统中使用了多个独立的采用不同答案检索技术的QA引擎,本文提出的QA方法实际上是选择、整合、应用学习技巧的一套操作过程。在本文设计的“基于策略学习的多引擎中文问答系统”中,“策略”通过“策略学习”的过程获得。“策略学习”算法包括两个主要步骤:确定系统中QA引擎的调用顺序,以及停止调用其它QA引擎的条件。对于一个给定的查询问题,本文通过“策略学习”得到的“策略”调用了系统中最适合其检索答案的QA引擎,并且通过其它QA引擎来验证答案,直到返回答案的置信度达到一定阈值为止。在本文进行的实验中,“基于策略学习的QA”方法相比较“简单路由QA”方法而言,系统性能有显著的提高。即使与“人工组合QA”方法相比,本文提出的“基于策略学习的多引擎QA”方法在系统检索答案的准确率和时间效率方面也都取得了更好的效果。
其他文献
随着网络的发展,网络安全问题也日益突出。网络蠕虫肆虐,正给网络用户造成了巨大的损失。而蠕虫传播模型的研究对于揭示蠕虫的传播特性和规律,并提出行之有效的控制方法,有重
随着科学技术的迅猛发展,视觉系统以其信息量大等优点成为了一种重要的导航方式,在机器人视觉、视频监控、导航、飞行器等方面已经得到了广泛的研究和应用。目前,利用机载摄
近年来,随着无线互联网技术和移动通信技术的发展,用户对于移动性通信的需求越来越高。目前全球范围内存在着多种无线接入网络,用户可以随时随地接入合适的无线网络中进行通
随着互联网技术的发展,不同文化间的交流呈现迅速上升的趋势。作为自然语言处理领域最具挑战性课题之一的机器翻译受到越来越多的研究机构的重视。本文在东北大学与日本富士
Web信息数量过多、增长过快,使得搜索引擎成为人们在Web上查找和获取信息的主要方式。Web上的信息分布存储、规模巨大,且有大量不稳定数据,加之网络的不稳定性,导致搜索引擎
随着数字化技术和网络多媒体的发展,数字视频的拷贝、传播和发布变得容易。为了适应不同的应用需求,视频经常会被编辑成多种格式的拷贝。这使数字视频的管理问题日益突现出来
随着时代的发展和潮流的进步,人们越来越多的使用譬如手机等移动设备来拍照和拍摄视频。然而移动设备由于受到硬件条件的限制,拍摄的作品往往无法和单反相机相媲美,拍摄出背
电信计费模型是为了解决业务支撑系统核心部分计费系统存在的问题而设计的。利用网络的概念来勾画业务支撑系统的框架,包含一系列的模型:数据模型、接口与协议模型、流程和功
在无线传感器网络中对多媒体数据的应用需求产生了无线多媒体传感器网络(Wireless Multimedia Sensor Network, WMSN)。以传输图像为主的无线多媒体传感器网络存在两个问题:图
当Java应用中依然保持着已经不会再使用的对象引用时,便会发生内存泄漏。因为无法肯定地判断一个对象是否不会再被用到,同时Java应用中对象之间的引用关系复杂,使得难以准确