论文部分内容阅读
随着互联网的广泛使用,论坛、微博等多种网络应用作为一种在线交流方式深入到人们日常生活当中,这些网络交流媒介会使得信息在几小时甚至几分钟内得到广泛的传播,如果不对这种瞬间传播进行有效地控制,一旦爆发了对社会或经济有影响的新闻或言论,就会覆水难收。因此在消息得到极大传播之前就要加以制约和控制,那么在网络中占据信息流动的主导地位、并且极具权威性的意见领袖的发现和监控就显得十分重要了。 目前对于意见领袖的挖掘方法主要有统计学方法、聚类分析法、网络结构分析法等。其中聚类算法着重考虑用户重要度、活跃度等用户自身属性,网络结构分析法多偏向于考虑用户之间的关系,这两种方法都能达到比单纯统计的方法更加有效的挖掘效果,但两者都相对独立,考虑因素不全面,导致挖掘结果有偏差。 本文针对后两种挖掘方法,结合用户的属性和用户间的关联性,并对现有方法进行了改进,还对意见领袖做了其他扩展性研究比如主题相关性与情感分析等。本文阐述了当前微博意见领袖的概念及国内外研究的现状,理论上分析了用户属性和用户关系两者的侧重点,综合现有方法并结合IKCCSA算法在意见领袖挖掘上的优点,提出了一种新的概念和挖掘方法——用户特征分析方法,并且在腾讯微博数据集上进行了验证,发现本文的方法更加准确有效。本文主要的研究成果总结如下: ①本文充分考虑了用户的自身属性和用户的关联性,提出了基于用户特征分析的微博意见领袖挖掘方法,并且对算法做了对比实验和相关验证性实验。 ②针对属性的聚类,K-means系列算法初始簇难以确定的问题,借鉴IKCCSA算法,提出了改进算法D-means,通过对密度的排序和梯度点概念的描述,得到更准确的初始簇中心,并且在微博挖掘实验中验证了它的合理性。 ③在基于用户关系挖掘中,考虑了小世界网路中节点距离和聚集系数的关系,提出用户中心权威性Centrality概念,一定程度上避免了虚假意见领袖的出现。 ④为了挖掘到更加细化的意见领袖,本文验证了意见领袖的主题相关性,并且通过对用户评论和转发进行情感分析,初步得到了意见领袖的分类:正面型、负面型、中立型和争议型。