论文部分内容阅读
随着网络信息的增长和更新速度变得越来越快,人们对信息查询的准确性和时效要求越来越高。自动问答系统提供了一种使用自然语言问句形式进行信息查询的方法,使用户可以快速准确地获取查询内容。传统使用文本匹配技术检索答案的自动问答系统,在处理类似“中国去年的GDP是多少?”这类对答案内容有时间限制的时间敏感问句时,由于没有考虑问句包含的时间意图,得到的答案虽然在字面上与问句相匹配,但是不满足问句的时间要求。如何增加问答系统处理时间敏感问句的能力是一个亟待解决的问题。本文针对自动问答系统在处理时间敏感问句过程中涉及到的文本时间信息标注、时间敏感问句识别、时间敏感问句答案检索、候选答案质量判定等问题进行研究。主要研究内容如下: 首先,基于多模型投票的时间信息标注方法。在对时间敏感问句进行分析和答案检索时,需要对问句和候选答案中的时间信息进行标注解析。文本时间信息标注是问句分析和答案检索的基础。文本时间信息标注包括时间表达式的标注和解析、事件的标注和分类、时间关系的识别和分类等多个任务。文本时间信息单标注任务的标注模型不能处理时间信息标注的其它任务,同一标注任务不同类型的标注模型各有不同的性能优势。针对文本时间信息的多任务标注需求,本文提出了基于多模型投票的时间信息标注方法,以候选模型的标注性能为投票权重,将不同模型的标注结果融合,实现对文本时间信息的多任务标注,提升标注性能。实验结果表明,与单标注模型相比,本文方法在整体标注性能方面取得了更优的标注结果。 其次,问答系统中时间敏感问句的识别。在问答系统中,用户的输入随意性很大,涉及到的领域也很广。用户针对不同领域的问句对答案的时间要求是不同的,如针对地理、医疗卫生等领域的查询对内容的时间要求比较低,针对航班信息、金融信息等领域的查询对内容的时间要求比较高。为了从系统的用户输入问句中识别出时间敏感问句,本文提出了面向限定域的时间敏感问句识别方法,先根据领域相关性对问句进行分类,然后再从领域相关问句中识别出时间敏感问句。实验结果表明,本文提出的方法能够有效识别出自动问答系统用户问句中的时间敏感问句。 再次,基于时间敏感意图分析的答案检索。时间敏感问句的答案不仅要满足问句的内容需求,还要满足问句的时间需求。如何检索到在内容和时间两个方面都满足问句意图需求的答案是时间敏感检索的一个难点。针对此问题,本文提出了基于时间敏感意图分析的答案检索方法,首先分析问句的时间意图,根据问句提问时间与问句要求的答案时间的相对时间关系将问句时间意图分为过去、最近、将来三个类别,然后根据答案中的时间与时间意图类别之间的匹配关系计算时间相关度,最后分别采用加权排序和学习排序的方法将时间相关度与内容相关度结合对候选答案排序。实验结果表明,本文设计的两个时间敏感问句答案检索方法的检索结果明显优于只使用内容相关的检索方法,且学习排序方法的结果优于加权排序方法。 最后,基于时序关系的答案质量判定。对问句的候选答案进行质量判定是问答系统返回正确答案的保障。在社区问答系统中,候选答案的时序关系与答案的质量之间有明显的相关性。针对社区问答中的答案质量判定问题,本文将候选答案的时序关系特征与问答对的深层语义匹配特征、文本特征、非文本特征、相似度特征相结合,提出了分层分类的答案质量判定方法,先根据问句与答案之间的语义关系对答案分类,然后对语义相关的类别根据语义相关度分类,对语义无关的类别根据对话关系分类。实验结果表明,本文方法比不用时序特征的方法取得了更优的答案质量判定性能。 本文通过对文本时间信息标注、时间敏感问句识别、时间敏感问句答案检索和答案质量判定问题的研究,提高了自动问答系统处理时间敏感问句的能力,为解决用户具有时间敏感意图的查询需求提供了技术基础。