异构社交网络中的社区问答质量分析和预测

来源 :北京大学 | 被引量 : 0次 | 上传用户：nail_dingding

【摘要】

：

随着社交网络的流行，人们开始在社交网络上频繁发布和分享信息，产生了大量用户数据内容。其中有一类社交网站，称为社区问答网站。国外知名的如StackFlow，Quora等网站，国内知名的有

【作者】

：

汪堃

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2014年期

【关键词】

：

社交网络社区问答微博特征回答质量预测准确度 SQA-Ranking算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社交网络的流行，人们开始在社交网络上频繁发布和分享信息，产生了大量用户数据内容。其中有一类社交网站，称为社区问答网站。国外知名的如StackFlow，Quora等网站，国内知名的有知乎，百度知道等网站。这些网站主要以问答形式，吸引用户在网站上自由提问和解答，并且可以将自己喜欢的内容进行分享。在社区问答网站中，用户的回答质量预测是一个经典的研究问题。而在以往的相关工作中，对于这一类的问题，一般都是基于用户在网站的历史数据或者人工调研数据，来对用户的行为进行分析和预测的。但是这类网站中大多数的用户的历史数据是比较稀疏，对于新来的用户和潜在活跃的用户更是如此。所以这种基于历史数据分析的方法，会面对了数据稀疏所带来的“冷启动”问题。为了更好的解决“冷启动”问题，本文通过引入了社交网络中用户的微博数据来帮助提高用户回答质量预测准确度。　　工作主要分为两部分，第一部分通过测量的方法，分析用户在知乎问答网站和微博社交网站上行为的联系和区别。使用了网站数据统计，LIWC分析，标签聚类方法来观察到用户的微博信息和问答网站行为的有很大的关联性。由此提出引入微博用户的声望值和内容相关性两个特征，来提高预测用户回答质量准确度，并且验证了用户的微博特征和社区问答网站上的回答质量具有一定相关性。第二部分，主要结合引入的微博的声望值和内容相关性，以及相关工作中提取的特征。设计对比实验，使用SVMRank方法进行最佳答案和回答质量排名的预测。比起只使用网站历史数据的Baseline预测方法，预测准确度最多有14％以上的提高。最后本文设计了基于图结构的SQA-Ranking算法，并且和SVMRank算法进比较，最多有20％以上的提高。

其他文献

蜜罐系统的研究与初步实现

蜜罐(Honeypot)是近几年才发展起来的一种主动安全技术。它设置一个专门让黑客攻击的应用系统，以记录黑客的活动，便于我们了解黑客的攻击方式和手段，发现潜在的威胁。论文对

学位

蜜罐黑客入侵检测网络安全

基于PKUnity-3系统芯片的多屏互动媒体中心设计与优化

多屏互动媒体中心是近年来兴起的一种多媒体应用软件。它具有一般媒体中心软件的媒体库管理和多媒体展示的功能，同时可通过局域网与其它多种媒体设备分享多媒体内容。本文基于

学位

PKUnity-3平台多屏互动媒体中心视频播放信息反馈机制

基于文本内容的自动文本分类方法的研究

该文的第1章概述了自动文本分类技术的产生背景以及现实意义,给出了自动文本分类问题的描述和评估方法,并介绍了国外自动文本分类技术的发展状况,第2章综述了中文自动文本分

学位

自动文本分类基于文本内容词库词对词频因子

蚂蚁算法扩展性及应用研究

蚂蚁算法是一种的新的启发式算法，是目前国内外启发式算法研究的热点和前沿问题。它的应用已涉及许多领域，如旅行商问题、指派问题、job-shop调度问题、图着色问题等等，并且取得

学位

蚂蚁算法适应性计算TSPQoSVC最小生成树聚类

CBIR中图像匹配的研究

该文针对基于内容的图像检索的主要方法进行了研究.在颜色匹配的研究中,采用不同的颜色空间和颜色特征,实现了多种基于颜色的图像检索算法,并且在建立的彩色图像数据库上对这

学位

图像检索技术颜色特征形状特征纹理特征

以XML为核心的Web应用的开发框架的研究

软件构件化是21世纪软件工业发展的大势趋,而工业化的软件复用方式已经从通用类库进化到了面向领域的应用框架.随着现在软件的复杂程度越来越高,也对应用开发框架提出了更多

学位

Web应用开发框架XML服务

红外行扫数字录放仪的视频输出和系统软件

该文根据行扫仪的使用需求和数字录放仪的技术特点,确定了录放仪的总体方案,包括:以嵌入式计算机为核心,以硬盘为磁记录介质,实时采集和存储图像数据,实时输出图像信号,对图

学位

视频输出红外录放仪嵌入式系统系统软件

入侵检测免疫细胞的有效性

随着网络的不断发展,网络安全也越来越受到关注,传统网络安全模型已经越来越难以保障网络的安全,这其中包含很多原因,主要是由于传统的网络安全模型存在一个致命的弱点--试图

学位

人工免疫机体免疫网络安全入侵检测演化计算

关联规则数据挖掘的研究及其在金融业的应用

随着数据库系统的广泛应用,在各个应用领域都存储了大量的数据,这些数据中包含了很多有用的信息,因此如何发现各种大型数据库中隐藏的、预先未知的信息,以辅助相关的应用显得

学位

数据挖掘关联规则个人信贷客户关系加权关联规则多最小支持度概率分布有趣性规则模板

中文多文档自动文摘技术研究

该文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度计算、局部主题的确定、文摘生成以及多文档自动文摘的评价技术等.句子相似度的计算在多文档文摘中有着非

学位

多文档自动文摘句子相似度计算局部主题确定文摘生成文摘评价

异构社交网络中的社区问答质量分析和预测

与本文相关的学术论文