基于在线学习的微博过滤技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：lostbridge

【摘要】

：

随着Internet的普及和信息技术的发展，微博用户人数迅速增长，微博数据呈爆炸式的增长。当用户登陆进微博之后所面对的就是大量的更新微博，使用户完全被眼前多种多样的微博信息所

【作者】

：

曾凡虎

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2013年期

【关键词】

：

微博过滤特征提取在线学习反馈学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的普及和信息技术的发展，微博用户人数迅速增长，微博数据呈爆炸式的增长。当用户登陆进微博之后所面对的就是大量的更新微博，使用户完全被眼前多种多样的微博信息所掩盖，很难在短时间获得自己感兴趣的微博。微博过滤技术已经成为微博服务不可或缺的重要组成部分。微博过滤技术主要解决两个问题：一方面向用户提供个人感兴趣的微博及相关信息，另一方面过滤掉垃圾微博信息（如反动信息、色情、暴力和广告等）。随着时间的变化，由于用户的兴趣也在发生变化，传统的批处理学习方式不适应用户兴趣模型更新的需要，而基于在线学习进行更新的机器学习方式在一定程度上解决了这些问题。本文研究内容主要有如下几个部分：首先，研究微博过滤系统的整体框架，微博过滤系统包括微博特征提取、微博特征选择、微博特征权重计算以及用机器学习的方法进行微博过滤。详细介绍了逻辑回归算法、支持向量机算法、K近邻算法和朴素贝叶斯算法等机器学习模型，并分析这几种机器学习模型的优缺点。其次，研究基于在线学习的微博过滤技术框架和微博过滤器。重点研究在线逻辑回归模型的微博过滤和在线支持向量机的微博过滤，通过微博过滤器的时间复杂度和性能两方面来分析这两种在线学习的微博过滤的优缺点，实验也验证了这两种微博过滤方法的优缺点。再次，研究改进的在线支持向量机模型的微博过滤方法。在线支持向量机过滤器性能优于在线逻辑回归模型，但是存在运行时间长的缺点，本文通过减少训练集合的大小、减少训练的次数和减少迭代的次数三种方法提升在线支持向量机过滤器的时间效率。通过实验证明了虽然过滤性能略有波动，但比起效率提高的优势几乎可以忽略不计，而且当数据量越大，效率提高的优势就越明显。最后，研究全反馈和半反馈学习的微博过滤方法。用户对看过的微博会选择性的给出反馈信息，比如评论微博、转发微博和收藏微博。利用用户的这些反馈信息可以知道用户对哪些微博感兴趣，从而进行微博分类。并且通过实验验证了全反馈学习可以提高微博过滤器的过滤性能。

其他文献

基于WMCBP-WWEF特征融合的随机森林人脸表情识别

人脸表情识别是计算机视觉和模式识别领域的一个研究热点，引起越来越多的国内外研究者的广泛关注。人脸表情识别的目标是让人工智能产品能够自动识别出人的表情，进而分析人的内

学位

表情识别多尺度中心化二值模式小波能量特征特征融合随机森林

基于上下文观点的微博情感倾向分析研究

微博作为一种新兴的社交媒体被广泛使用,其每天的数据交流数量呈现爆炸式的增长,这些数据为自然语言处理提供了良好的语料环境。微博文本具有和短文本一样的长度较短、情感表

学位

情感分析情感词典上下文观点信息微博表情符号

基于特征融合的人脸表情识别算法研究

人脸表情识别是一项极富有挑战性的研究课题，由于其潜在的应用价值，受到了许多学者的广泛关注。随着多媒体技术和网络视频的发展，对人们的情感分析，了解用户情感变得越来越重要。

学位

表情识别Gabor小波HLAC特征融合

基于用户兴趣的协同过滤推荐算法研究

因特网技术的快速发展,推荐系统由于能够帮助用户快速做出适当决定,被广泛应用于各大电子商务网站,推荐服务的使用能促进用户由浏览者到购买者之间的转换,给生产商带来商机的

学位

推荐系统协同过滤兴趣偏移用户聚类矩阵稀疏性

基于证据理论的信任模型及其在云计算中的应用研究

学位

基于事务日志的异构数据库同步技术研究

随着应用系统的急剧扩张和网络技术的迅速发展,用户对系统提供实时数据更新的要求越来越高。然而在系统的集成过程中,底层的数据库之间在实现数据资源的共享和变换时会出现一

学位

事务日志异构数据库同步技术变化捕获

基于可信计算的虚拟机迁移完整性度量研究

在数字化时代的今天,由众多服务器构成的云计算数据中心中,物理服务器的负载较高或者较低,都将会影响系统整体的利用效率。为了实现整个架构的负载平衡,就须要使用虚拟机的动

学位

可信计算虚拟机迁移有效传输内存压缩完整性度量

基于超图的人脸表情驱动

随着计算机技术的飞速发展,计算机图形学被越来越多地应用到数字电影和游戏中。其中,人脸动画是计算机图形学中最典型的研究方向。近年来数据驱动形式的人脸表情动画也受到了

学位

人脸动画超图学习流形学习半监督学习数据驱动

基于音频内容的多媒体文件相似性快速比对研究

当前，网络和多媒体技术迅猛发展，多媒体信息急剧增长，网络多媒体数据中数据重复现象很常见，尤其是一些大型多媒体分享网站中，用户上传了大量重复的多媒体数据。重复数据不仅增加了

学位

重复检测直方图GMMK-L散度

分布式软件自动更新系统关键技术研究与实现

随着网络规模的增大及其相关技术的发展，越来越多的用户在网络上进行信息的交流，数据的传输等活动，享受着网络带给人们的服务和便利。应用在对等网络上的软件更新技术也逐渐取代

学位

PKI动态密钥节点选择性能评价

基于在线学习的微博过滤技术研究

其他学术论文