论文部分内容阅读
互联网技术的发展给越来越多人的日常生活带来便利的同时,往往使得人们淹没在信息的海洋中,很难及时地找到所需要的信息,也就是信息过载现象。随着Web2.0的迅速发展,人们希望能在一个社区中用自然语言进行互动的提问、回答来获取所需信息,于是大批社区问答系统应运而生,满足了人们的要求。一方面,在社区问答系统中,用户可以进行提问,等待其他用户来回答,或者直接检索与自己提问相近的问题,进而得到答案,即问句相似度计算问题。另一方面,随着社区问答系统的运营,积累了大量的“问答对”语料,需要对“问答对”进行分门别类,保障系统健壮的运行,即问句分类问题。因此,本文所做的主要研究工作包括:首先,传统的问答系统(QA),如TREC QA任务,只是找到简单问题的答案,并不足以回答现实世界中用户的问题,而且没有用户交互特性,而基于社区的问答系统(CQA),积累了大量的“问答对”可以利用。本文提出了一种基于LDA的匹配框架来解决相似问句的匹配问题,分别从问句的统计信息、语义信息和主题信息三方面来计算问句相似度。统计信息指基于VSM的统计模型,语义信息指基于WordNet的语义模型,主题信息指基于LDA的主题模型,分别对三种模型计算问句相似度,综合得到问句的整体相似度。其次,在社区问答系统中,一方面,用户进行提问,由于不知道答案而不能确定问题所属类别时,可先不选择类别提交问题,等得到正确解答后,再利用答案信息对问题进行分类,从而避免用户随机给问题标记一个类别而导致分类体系杂乱;另一方面,随着社区问答的运营,新的话题主题出现,原有的分类体系就不太适应,可以利用答案信息进行问句分类。因此问句分类对社区问答系统是及其重要而且必要的。本文提出了两种解决方法:一是提出一种结合问题分类和答案分类的组合模型;二是通过映射函数将问题由训练集中的答案语义网来表示,再用SVM进行分类。最后,本文在Yahoo! Answers网站上抽取的真实标注数据集上进行实验,并通过多种评价指标对实验结果进行评价,结果表明本文提出的方法较传统方法有所改进,取得了较好的效果。