社区问答中问句相似度计算和分类技术的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:guohaohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展给越来越多人的日常生活带来便利的同时,往往使得人们淹没在信息的海洋中,很难及时地找到所需要的信息,也就是信息过载现象。随着Web2.0的迅速发展,人们希望能在一个社区中用自然语言进行互动的提问、回答来获取所需信息,于是大批社区问答系统应运而生,满足了人们的要求。一方面,在社区问答系统中,用户可以进行提问,等待其他用户来回答,或者直接检索与自己提问相近的问题,进而得到答案,即问句相似度计算问题。另一方面,随着社区问答系统的运营,积累了大量的“问答对”语料,需要对“问答对”进行分门别类,保障系统健壮的运行,即问句分类问题。因此,本文所做的主要研究工作包括:首先,传统的问答系统(QA),如TREC QA任务,只是找到简单问题的答案,并不足以回答现实世界中用户的问题,而且没有用户交互特性,而基于社区的问答系统(CQA),积累了大量的“问答对”可以利用。本文提出了一种基于LDA的匹配框架来解决相似问句的匹配问题,分别从问句的统计信息、语义信息和主题信息三方面来计算问句相似度。统计信息指基于VSM的统计模型,语义信息指基于WordNet的语义模型,主题信息指基于LDA的主题模型,分别对三种模型计算问句相似度,综合得到问句的整体相似度。其次,在社区问答系统中,一方面,用户进行提问,由于不知道答案而不能确定问题所属类别时,可先不选择类别提交问题,等得到正确解答后,再利用答案信息对问题进行分类,从而避免用户随机给问题标记一个类别而导致分类体系杂乱;另一方面,随着社区问答的运营,新的话题主题出现,原有的分类体系就不太适应,可以利用答案信息进行问句分类。因此问句分类对社区问答系统是及其重要而且必要的。本文提出了两种解决方法:一是提出一种结合问题分类和答案分类的组合模型;二是通过映射函数将问题由训练集中的答案语义网来表示,再用SVM进行分类。最后,本文在Yahoo! Answers网站上抽取的真实标注数据集上进行实验,并通过多种评价指标对实验结果进行评价,结果表明本文提出的方法较传统方法有所改进,取得了较好的效果。
其他文献
各种高新技术的飞速发展带动了无线传感器网络的产生和应用,并以其独特的网络结构和巨大的应用价值带来了感知领域的一场变革。作为一种新型的信息获取和处理技术,无线传感器
无论是在图形学领域还是计算机辅助设计及各种模拟计算方法中,特征都是几何模型中最重要的部分,由于其具有特殊的几何性质,被广泛应用于几何造型,网格分片,网格形变以及几何
支持向量机(SVM)作为一种新的人工智能技术,它最大的优势是解决了样本数据不足时的学习问题,并且得出了较好的效果。目前,SVM是人工智能研究的热点。诸多研究指出,SVM分类效
随着工业化的快速发展,视觉技术越来越多的与PLC一起应用到工业生产中。目前IEC 61131-3标准和PLC OPen国际标准只对逻辑控制编程和运动控制编程进行了规范,但没有制定PLC的
移动Ad Hoc网络是由一组无线移动节点组成,是一种不需要依靠固定基础设施的、能够迅速展开使用的通信系统。是完全分布式系统,不需要任何中心实体、自组织、自愈的网络。随着
随着计算机相关技术的飞速发展,实时系统的应用领域得到了极大的拓展。实时系统中很多动作的发生必须要满足规定的时间约束,否则可能会导致严重的损失。因此,如何保证实时系
褶皱是人类大脑皮层的一个基本形状特征,它对于刻画人类大脑的结构来说非常重要,这些褶皱的形状不仅在不同的大脑之间表现出差异性,而且在同一个大脑上的左右半脑上都显示出
不确定数据聚类是传统数据挖掘的扩展,具有广泛的应用背景和研究价值,受到研究者们广泛的关注。不确定数据聚类问题属于典型的NP难解问题,并表现出了典型的NP难解问题的特点
新颖人机交互技术日益成为当前的研究热点问题之一,手势识别技术因为其自然性和实用性在计算机视觉和人工智能等领域成为一个极具发展前景的课题。传统的手势识别技术大多是基
由于现代社会对安全需求的提高,生物特征识别技术得到了广泛应用,步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别。相比其他特征,步态可以在被识别对