基于时间敏感意图分析的自动问答方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hot_way
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的增长和更新速度变得越来越快,人们对信息查询的准确性和时效要求越来越高。自动问答系统提供了一种使用自然语言问句形式进行信息查询的方法,使用户可以快速准确地获取查询内容。传统使用文本匹配技术检索答案的自动问答系统,在处理类似“中国去年的GDP是多少?”这类对答案内容有时间限制的时间敏感问句时,由于没有考虑问句包含的时间意图,得到的答案虽然在字面上与问句相匹配,但是不满足问句的时间要求。如何增加问答系统处理时间敏感问句的能力是一个亟待解决的问题。本文针对自动问答系统在处理时间敏感问句过程中涉及到的文本时间信息标注、时间敏感问句识别、时间敏感问句答案检索、候选答案质量判定等问题进行研究。主要研究内容如下:  首先,基于多模型投票的时间信息标注方法。在对时间敏感问句进行分析和答案检索时,需要对问句和候选答案中的时间信息进行标注解析。文本时间信息标注是问句分析和答案检索的基础。文本时间信息标注包括时间表达式的标注和解析、事件的标注和分类、时间关系的识别和分类等多个任务。文本时间信息单标注任务的标注模型不能处理时间信息标注的其它任务,同一标注任务不同类型的标注模型各有不同的性能优势。针对文本时间信息的多任务标注需求,本文提出了基于多模型投票的时间信息标注方法,以候选模型的标注性能为投票权重,将不同模型的标注结果融合,实现对文本时间信息的多任务标注,提升标注性能。实验结果表明,与单标注模型相比,本文方法在整体标注性能方面取得了更优的标注结果。  其次,问答系统中时间敏感问句的识别。在问答系统中,用户的输入随意性很大,涉及到的领域也很广。用户针对不同领域的问句对答案的时间要求是不同的,如针对地理、医疗卫生等领域的查询对内容的时间要求比较低,针对航班信息、金融信息等领域的查询对内容的时间要求比较高。为了从系统的用户输入问句中识别出时间敏感问句,本文提出了面向限定域的时间敏感问句识别方法,先根据领域相关性对问句进行分类,然后再从领域相关问句中识别出时间敏感问句。实验结果表明,本文提出的方法能够有效识别出自动问答系统用户问句中的时间敏感问句。  再次,基于时间敏感意图分析的答案检索。时间敏感问句的答案不仅要满足问句的内容需求,还要满足问句的时间需求。如何检索到在内容和时间两个方面都满足问句意图需求的答案是时间敏感检索的一个难点。针对此问题,本文提出了基于时间敏感意图分析的答案检索方法,首先分析问句的时间意图,根据问句提问时间与问句要求的答案时间的相对时间关系将问句时间意图分为过去、最近、将来三个类别,然后根据答案中的时间与时间意图类别之间的匹配关系计算时间相关度,最后分别采用加权排序和学习排序的方法将时间相关度与内容相关度结合对候选答案排序。实验结果表明,本文设计的两个时间敏感问句答案检索方法的检索结果明显优于只使用内容相关的检索方法,且学习排序方法的结果优于加权排序方法。  最后,基于时序关系的答案质量判定。对问句的候选答案进行质量判定是问答系统返回正确答案的保障。在社区问答系统中,候选答案的时序关系与答案的质量之间有明显的相关性。针对社区问答中的答案质量判定问题,本文将候选答案的时序关系特征与问答对的深层语义匹配特征、文本特征、非文本特征、相似度特征相结合,提出了分层分类的答案质量判定方法,先根据问句与答案之间的语义关系对答案分类,然后对语义相关的类别根据语义相关度分类,对语义无关的类别根据对话关系分类。实验结果表明,本文方法比不用时序特征的方法取得了更优的答案质量判定性能。  本文通过对文本时间信息标注、时间敏感问句识别、时间敏感问句答案检索和答案质量判定问题的研究,提高了自动问答系统处理时间敏感问句的能力,为解决用户具有时间敏感意图的查询需求提供了技术基础。
其他文献
本文提出一种基于CORBA(Common Object Request Broker Agent)的分布式入侵防御系统(DIPS,Distributed Intrusion Protection System),较之传统的入侵监测系统,具有实时、易
随着网络和多媒体技术的发展,视频信息的检索成为非常重要的研究领域.该领域涉及诸多方面的技术,包括对关键帧的提取,视频在时间序列上的分割,视频片断的相似度度量以及高维
当前,数据挖掘是数据库研究、开发和应用最活跃的分支之一,引起了学术界和产业界的广泛关注.而其中关联规则挖掘在商业等领域的成功应用,使其成为数据挖掘中最成熟、最重要、
本文从分析火电厂燃料管理的整个过程入手,详细描述了燃料计划采购、燃料检斤、燃料化验、燃料掺烧及燃料结算的过程和内容,并阐述了燃煤掺配对保证机组稳定运行和经济运行的重要作用。论文着重论述了火电厂燃料配给模型的建立和改进过程,说明了燃料配给模型的适用条件,最后进行了燃料掺配的软件设计。针对某电厂200MW机组的实例,建立了掺配模型,并设计开发了燃煤掺配决策支持系统。该决策支持系统应用了软件总线技术建立
在Internet出现以前,数据库产业可以说是发展最快的信息产业,而Internet的发展又给数据库产业注入了新的活力,使传统的数据库产业向着Internet服务的方向发展。Oracle数据库系统
智能网过载控制技术是智能网实现过程中的关键技术,它对于确保智能网的稳定性,从而高效、优质地提供智能网业务起着重要的作用。SCP过载控制算法是智能网过载控制技术的核心。
网络数据流分类是目前工业界和学术界研究热点。传统的基于端口、基于DPI的分类方法在P2P业务种类剧增以及抗加密性差问题上处于明显的劣势,导致分类准确率急剧下降。因而越来
随着Internet的迅速发展,以前在企业内部网络中开通的业务也纷纷移植到Internet上。Internet构建在TCP/IP协议上,而TCP/IP协议并未提供任何安全措施,针对Internet存在的安全问题
目前,互联网的速率在飞速增长,宽带网络静悄悄地走进千家万户,人们在享受网络带来的便利性的同时,也面临着黑客入侵、网络病毒等诸多安全性问题。面对日益增长的网络安全需求和令
近年来,外存储系统技术取得了飞速的发展.以磁盘阵列、存储区域网、附网存储为代表的外存储系统占据了计算机市场很大的份额.纵观外存储系统的发展,其数据组织形式由最初的单