论文部分内容阅读
社区问答系统的迅速发展引起了包括研究领域和工业界在内的众多学者的关注,也已成为自然语言处理的和信息检索领域的一个重要分支。在社区问答系统中,由于问句通常较短,在表达方式上存在一定的模糊性,再加上自然语言本身的复杂性,现有的检索工具还不能很好地理解问题,因此得到的检索结果也不能让人满意。目前如“Yahoo!Answer”,“新浪爱问”以及“百度知道”等社区问答型网站都已经积累了海量的问答数据。如何基于已有的数据来增强社区问答系统对问题的理解能力,从而更好地为用户服务成为了研究热点之一。本文使用Yahoo!Answer的问答语料库作为知识库进行研究,构建了一个社区问答系统中的问题理解平台。该平台能够分析用户所提问题的类别,并能进一步理解用户提问的目的和意图,借助已有的知识库找寻类别、语义及意图最接近的已有问题,并根据已有问题对应的答案进一步确认用户需要的反馈信息。在构建的问题理解平台的过程中,本文对其中的三个关键技术展开了研究。具体的研究内容包括:(1)为了更好地理解问题的语义,减小类似问题的搜索范围,对问句的分类技术进行了研究,提出了一个融合词汇、句法、依存等多层信息的问题分类方法,在公认的UIUC语料上的实验表明,所提方法能高性能地完成问题分类任务;(2)为了更好地理解用户提问的目的和意图,提出了一个基于关键词抽取的问题焦点识别方法,并使用Yahoo!Answer语料对问题焦点识别的有效性进行了验证;(3)为了更好地在知识库中检索类似问题,提出了一个基于翻译模型的问题映射方法,并使用Yahoo!Answer语料对问题映射方法的有效性进行了验证。