论文部分内容阅读
近年来,随着我国Web2.0和移动互联网技术的不断发展以及大众信息素养的显著提升,微博等社交网络服务由于其使用简便、传播迅速、随时可接入等优势,已经成为人们创作、传播和获取信息的一类重要平台,对人们的日常生活、学习、工作和社会交往产生了重大影响。随着我们可掌握的微博用户行为数据越来越多,深入分析和挖掘隐藏在用户日常行为中的知识和联系,分析用户需求,寻找权威用户,发现微博主题,对提高微博利用效率,提供知识服务,加强危机沟通能力,维护社会和谐稳定等均具有重大的现实意义。基于微博用户行为的知识发现是一个综合性的研究命题,微博用户行为数据的来源和格式多种多样,知识发现的模型和算法不断创新,国内外微博的用户使用习惯和语法结构存在差异,中文微博自身也处于快速发展之中。在相关基础理论和微博研究文献回顾的基础上,本文首先将基于微博用户行为的知识发现模式分为三类。第一类知识发现模式利用用户行为统计特征数据,统计特征包括统计指标和数据分布特征,能够反映微博用户以及微博文本的若干特点,揭示人类社交网络行为客观规律,实现用户分类,预测微博传播效果。第二类知识发现模式侧重于分析用户之间的行为关系,微博本质上是一个社会网络媒体,用户行为信息中提供了大量的用户之间的关系数据,反映了用户的兴趣、偏好、意向等隐性知识。通过社会网络分析方法,可以了解微博社群和子社群的社会结构,找出具有强社会影响力的用户,发现社区结构和小团体,实现基于用户关系的个性化推荐。第三类的知识发现模式基于用户行为与文本之间的关系,即分析用户转发、评论和提及的文本内容,进而发现主题、用户特征词等知识联系。本文主要以提及关系为例,根据用户被提及的文本关键词,对微博用户进行分类和特征词抽取。针对三类知识发现模式,本文分别以新浪微博的数据为例,提出了相应的知识发现模型和算法,并通过实验验证了相关结论。最后,本文构建了微博用户行为知识发现从数据预处理、模式发现和知识库生成的一般模型,并介绍了几类基于用户行为知识发现的知识服务方式,这一模型对于新出现的知识需求的分析和解决具有一定的指导意义。