论文部分内容阅读
作为互联网的重要组成部分,校园BBS完善了信息化校园的新型校园形态,成为了师生在日常生活中自由获取信息和交流意见的平台。但是随着意见的扩散和逐步深入,各种观点发生交流、碰撞、融合,最初个人的意见可能转化为大多数人的集体意识,最终形成一定规模的校园网络舆情。因此,构建针对校园BBS的舆情分析系统,对校园舆情进行深入的意见挖掘是重要并且必要的,本文将从以下两个方面研究校园舆情分析中的意见挖掘技术:在文本倾向性分析方面,本文结合校园BBS中用户常用的情感表达方式,提出了基于情感表达特征的文本倾向性分析模型。本文从文本预处理模块、文本特征选择模块和基于SVM的情感倾向性分析模块介绍了文本倾向性分析流程。在文本预处理模块,本文研究了现有情感词汇资源,总结并整理了用户词典、停用词词典、否定词词典和情感词词典。基于辅助词典,一方面提高了分词的准确率,使分词结果更易于进行情感分析,另一方面也降低了某些高频词汇的噪音影响,进一步细化了文本预处理的结果。在文本特征抽取模块,本文分析了用户常用的情感表达方式,同时结合了校园BBS帖子具有长度较短并且存在大量变形词的特点,从Bi-gram和情感短语特征、标点符号特征、表情符号特征深度挖掘了文本所蕴含的情感色彩。在意见领袖识别方面,本文提出了基于用户特征与交互网络的意见领袖识别算法HITS_FEATURE,该方法结合用户的特征权重值,分析用户交互网络结构,最终识别校园BBS中的意见领袖。首先,通过引入运筹学中的层次分析法,分析用户特征中的威望度、活跃度、影响力,定量计算用户的特征权重值。然后,根据用户转发、评论帖子的行为,构建用户交互网络,分析用户交互中的情感倾向性。最后,基于本文提出的HITS_FEATURE算法,计算用户的权威值,筛选出校园BBS的意见领袖。最后,利用从校园BBS爬取的实验数据,本文以校园舆情分析中的意见挖掘技术为研究核心,针对其中文本倾向性分析和意见领袖识别两个部分,设计并详细分析了实验。实验结果表明,本文提出的基于情感表达特征的文本倾向性分析和基于用户特征与交互网络的意见领袖识别模型是可行的,能有效提高校园舆情分析中意见挖掘的准确度。