关联数据挖掘在微博意见领袖识别中的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:cbg668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前社交网络是人们获取信息与维持互动的主流方式之一,其中的海量数据有丰富的利用价值。准确高效的识别出社交网络中的意见领袖对于引导舆论、商业投资、规避风险等都有重要意义。但是社交网络数据的异构性、关系的复杂性却给研究的准确性和算法效率带来问题,以传统的数据作为研究对象会遗漏很多隐藏的语义信息,而关联数据可以很好的解决这些问题,准确表达数据含义,挖掘出更多的有效信息,也为后续相关研究的数据共享和扩展提供了便利。本文通过计算微博用户相似度为实现微博数据关联化打下基础,将构建的关联数据与关联规则挖掘算法及指标打分法结合解决意见领袖识别客观性不足问题。本文的研究工作分为三个方面:第一,针对传统相似度计算方法在选取属性片面方面造成的准确性不高的问题,提出一种基于微博数据的综合相似度计算方法。通过分析描述用户的属性,选取背景、互动两部分衡量标准,根据属性具体的数据结构运用对应的计算方法,利用统计信息和层次分析法为各属性赋权值,确定用户间相似度,并采用准确率、召回率、F1度量值作为实验结果的评估指标。实验结果表明,综合相似度计算方法能更准确的衡量用户间相似关系。第二,根据用户相似度计算过程中的属性分析和计算结果,借鉴本体构建方法“七步法”的思想,从概念、属性、实例三方面构建数据层次结构、关系,填充数据,借助protégé工具实现微博数据的关联化。第三,针对传统算法中选取衡量用户重要性因素的主观性和准确度不足的问题,提出基于关联数据的识别方法。利用深度优先算法处理数据,实现关联数据事务化及标准化,采用Apriori算法产生与意见领袖相关的关联规则,客观的确定衡量因素并赋权值,结合指标打分法,识别意见领袖。实验结果表明,基于关联数据的识别方法的可行性。
其他文献
全球金融危机对中俄双边贸易产生了严重影响,使得中俄贸易额出现了十年以来的首次负增长,中国也从俄罗斯的第一大贸易伙伴退居为第三位。在这种情况下,应冷静思考中俄双边贸
总结了LKJ-2000型列车运行监控记录装置显示器解体检修的相关工艺,有利于指导日常的检修维护工作。
<正>规模呈扩张之势第一,参演兵力庞大。以2012年美韩联合军演为例,2月底开始的美韩"关键决断"联合演习和"秃鹫"野外机动联合训练,韩国参演军人多达20万,美军人数也多达2.6万
(3S,4R)-4-苯基-3-{[(3,4-亚甲氧基)苯氧基]甲基}哌啶是抗抑郁药盐酸帕罗西汀合成中的一个副产物,对研究盐酸帕罗西汀成品的质量具有较大价值。本文以(3S,4R)-4-(4-氟苯基)-3
目的:探讨分析用桃红四物汤加减治疗慢性附件炎性包块的临床效果。方法:选取近年来我院收治的慢性附件炎性包块患者102例作为研究对象,将其随机分为对照组和观察组,分别使用
第二军医大学实验动物中心在多年的教学实践中,落实责任制度,保障了正常的教育、教学秩序。对今后的工作提出构想和规划,旨在为卫生管理决策和法律法规的制定提供科学依据。
<正>一、问题的提出新课程实施伊始,课堂教学低效一直困扰着我校部分教师。如何重构新课程下的知识与能力、过程与方法、情感态度价值观在各年级语、数学科的实施系统;如何运
会议
日本会计的国际协调及其对我们的启示吴革国际会计协调随着国际经济的发展而越来越受到人们的关注。纵观会计发展的历史进程,不难看出社会环境因素对会计演变产生的巨大作用。
陡斜坡路基作为山区高速公路的重要内容,一直是国内外工程技术人员和相关学者关注和研究的重点。针对国内陡斜坡路基病害时有发生的现状,该文以山区高速公路富水陡斜坡路基为