论文部分内容阅读
随着Internet的普及和信息技术的发展,微博用户人数迅速增长,微博数据呈爆炸式的增长。当用户登陆进微博之后所面对的就是大量的更新微博,使用户完全被眼前多种多样的微博信息所掩盖,很难在短时间获得自己感兴趣的微博。微博过滤技术已经成为微博服务不可或缺的重要组成部分。微博过滤技术主要解决两个问题:一方面向用户提供个人感兴趣的微博及相关信息,另一方面过滤掉垃圾微博信息(如反动信息、色情、暴力和广告等)。随着时间的变化,由于用户的兴趣也在发生变化,传统的批处理学习方式不适应用户兴趣模型更新的需要,而基于在线学习进行更新的机器学习方式在一定程度上解决了这些问题。本文研究内容主要有如下几个部分:首先,研究微博过滤系统的整体框架,微博过滤系统包括微博特征提取、微博特征选择、微博特征权重计算以及用机器学习的方法进行微博过滤。详细介绍了逻辑回归算法、支持向量机算法、K近邻算法和朴素贝叶斯算法等机器学习模型,并分析这几种机器学习模型的优缺点。其次,研究基于在线学习的微博过滤技术框架和微博过滤器。重点研究在线逻辑回归模型的微博过滤和在线支持向量机的微博过滤,通过微博过滤器的时间复杂度和性能两方面来分析这两种在线学习的微博过滤的优缺点,实验也验证了这两种微博过滤方法的优缺点。再次,研究改进的在线支持向量机模型的微博过滤方法。在线支持向量机过滤器性能优于在线逻辑回归模型,但是存在运行时间长的缺点,本文通过减少训练集合的大小、减少训练的次数和减少迭代的次数三种方法提升在线支持向量机过滤器的时间效率。通过实验证明了虽然过滤性能略有波动,但比起效率提高的优势几乎可以忽略不计,而且当数据量越大,效率提高的优势就越明显。最后,研究全反馈和半反馈学习的微博过滤方法。用户对看过的微博会选择性的给出反馈信息,比如评论微博、转发微博和收藏微博。利用用户的这些反馈信息可以知道用户对哪些微博感兴趣,从而进行微博分类。并且通过实验验证了全反馈学习可以提高微博过滤器的过滤性能。