论文部分内容阅读
随着互联网对社会生活的影响越来越大,人们逐渐习惯于利用新兴媒体,如微博客、QQ、MSN、聊天室和论坛等平台交流心得体会、参与公众话题讨论。意见领袖作为社会舆论中的一种关键力量,在舆论形成的过程中具有非常重要的作用。局部意见在意见领袖的引导下演化为舆论,影响力直接渗透到现实社会。
目前国内外学者对网络意见领袖的识别方法进行了广泛的研究。而目前研究方法存在以下不足:一方面,有的方法并没有考虑回复帖子倾向性,用户统计信息等因素对意见领袖识别的影响;另一方面,即使考虑了这些因素,但并没有给出具体的研究计算方法。本文利用现有方法的优点,并根据具体的情况,给出了一种意见领袖识别中的文本倾向性判定方法,进而建立考虑回复帖子倾向性和用户统计信息的意见领袖发现模型,本文的主要工作有:
1.根据意见领袖识别中文本倾向性分析与常规的文本倾向性分析的差异,给出了意见领袖识别中文本倾向性判定训练集构造方法,叙述了帖子倾向性判定的具体方法。
2.在影响力扩散概率模型(IDPM)的基础上,叙述了考虑帖子倾向性的意见领袖发现模型,并阐明了考虑帖子倾向性有效系数的具体算法和意见领袖得分的具体算法。
3.针对评论性语料重复度高和倾向性较强等特点,给出了文档频率和倾向性加权结合的特征选择公式,加强了所选特征项的表述能力。
4.引入了用户统计信息,如回复帖数,用户支持度等对意见领袖识别的影响,阐明了考虑用户统计信息有效因子的具体算法。综合考虑倾向性和用户统计信息对意见领袖识别的影响。
通过实验对比可知:本文的方法能够有效提高意见领袖识别的正确率。