论文部分内容阅读
目前社交网络是人们获取信息与维持互动的主流方式之一,其中的海量数据有丰富的利用价值。准确高效的识别出社交网络中的意见领袖对于引导舆论、商业投资、规避风险等都有重要意义。但是社交网络数据的异构性、关系的复杂性却给研究的准确性和算法效率带来问题,以传统的数据作为研究对象会遗漏很多隐藏的语义信息,而关联数据可以很好的解决这些问题,准确表达数据含义,挖掘出更多的有效信息,也为后续相关研究的数据共享和扩展提供了便利。本文通过计算微博用户相似度为实现微博数据关联化打下基础,将构建的关联数据与关联规则挖掘算法及指标打分法结合解决意见领袖识别客观性不足问题。本文的研究工作分为三个方面:第一,针对传统相似度计算方法在选取属性片面方面造成的准确性不高的问题,提出一种基于微博数据的综合相似度计算方法。通过分析描述用户的属性,选取背景、互动两部分衡量标准,根据属性具体的数据结构运用对应的计算方法,利用统计信息和层次分析法为各属性赋权值,确定用户间相似度,并采用准确率、召回率、F1度量值作为实验结果的评估指标。实验结果表明,综合相似度计算方法能更准确的衡量用户间相似关系。第二,根据用户相似度计算过程中的属性分析和计算结果,借鉴本体构建方法“七步法”的思想,从概念、属性、实例三方面构建数据层次结构、关系,填充数据,借助protégé工具实现微博数据的关联化。第三,针对传统算法中选取衡量用户重要性因素的主观性和准确度不足的问题,提出基于关联数据的识别方法。利用深度优先算法处理数据,实现关联数据事务化及标准化,采用Apriori算法产生与意见领袖相关的关联规则,客观的确定衡量因素并赋权值,结合指标打分法,识别意见领袖。实验结果表明,基于关联数据的识别方法的可行性。