异构社交网络中的社区问答质量分析和预测

来源 :北京大学 | 被引量 : 0次 | 上传用户:nail_dingding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络的流行,人们开始在社交网络上频繁发布和分享信息,产生了大量用户数据内容。其中有一类社交网站,称为社区问答网站。国外知名的如StackFlow,Quora等网站,国内知名的有知乎,百度知道等网站。这些网站主要以问答形式,吸引用户在网站上自由提问和解答,并且可以将自己喜欢的内容进行分享。在社区问答网站中,用户的回答质量预测是一个经典的研究问题。而在以往的相关工作中,对于这一类的问题,一般都是基于用户在网站的历史数据或者人工调研数据,来对用户的行为进行分析和预测的。但是这类网站中大多数的用户的历史数据是比较稀疏,对于新来的用户和潜在活跃的用户更是如此。所以这种基于历史数据分析的方法,会面对了数据稀疏所带来的“冷启动”问题。为了更好的解决“冷启动”问题,本文通过引入了社交网络中用户的微博数据来帮助提高用户回答质量预测准确度。  工作主要分为两部分,第一部分通过测量的方法,分析用户在知乎问答网站和微博社交网站上行为的联系和区别。使用了网站数据统计,LIWC分析,标签聚类方法来观察到用户的微博信息和问答网站行为的有很大的关联性。由此提出引入微博用户的声望值和内容相关性两个特征,来提高预测用户回答质量准确度,并且验证了用户的微博特征和社区问答网站上的回答质量具有一定相关性。第二部分,主要结合引入的微博的声望值和内容相关性,以及相关工作中提取的特征。设计对比实验,使用SVMRank方法进行最佳答案和回答质量排名的预测。比起只使用网站历史数据的Baseline预测方法,预测准确度最多有14%以上的提高。最后本文设计了基于图结构的SQA-Ranking算法,并且和SVMRank算法进比较,最多有20%以上的提高。
其他文献
蜜罐(Honeypot)是近几年才发展起来的一种主动安全技术。它设置一个专门让黑客攻击的应用系统,以记录黑客的活动,便于我们了解黑客的攻击方式和手段,发现潜在的威胁。 论文对
多屏互动媒体中心是近年来兴起的一种多媒体应用软件。它具有一般媒体中心软件的媒体库管理和多媒体展示的功能,同时可通过局域网与其它多种媒体设备分享多媒体内容。本文基于
该文的第1章概述了自动文本分类技术的产生背景以及现实意义,给出了自动文本分类问题的描述和评估方法,并介绍了国外自动文本分类技术的发展状况,第2章综述了中文自动文本分
蚂蚁算法是一种的新的启发式算法,是目前国内外启发式算法研究的热点和前沿问题。它的应用已涉及许多领域,如旅行商问题、指派问题、job-shop调度问题、图着色问题等等,并且取得
该文针对基于内容的图像检索的主要方法进行了研究.在颜色匹配的研究中,采用不同的颜色空间和颜色特征,实现了多种基于颜色的图像检索算法,并且在建立的彩色图像数据库上对这
软件构件化是21世纪软件工业发展的大势趋,而工业化的软件复用方式已经从通用类库进化到了面向领域的应用框架.随着现在软件的复杂程度越来越高,也对应用开发框架提出了更多
该文根据行扫仪的使用需求和数字录放仪的技术特点,确定了录放仪的总体方案,包括:以嵌入式计算机为核心,以硬盘为磁记录介质,实时采集和存储图像数据,实时输出图像信号,对图
随着网络的不断发展,网络安全也越来越受到关注,传统网络安全模型已经越来越难以保障网络的安全,这其中包含很多原因,主要是由于传统的网络安全模型存在一个致命的弱点--试图
随着数据库系统的广泛应用,在各个应用领域都存储了大量的数据,这些数据中包含了很多有用的信息,因此如何发现各种大型数据库中隐藏的、预先未知的信息,以辅助相关的应用显得
该文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度计算、局部主题的确定、文摘生成以及多文档自动文摘的评价技术等.句子相似度的计算在多文档文摘中有着非