基于层次聚类的微博用户兴趣发现关键技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:finallove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交网络的高速发展,社交网络平台(如Twitter,Facebook.人人网,微博等)近几年迎来了爆炸式增长,社交网络已经深入到人们日常生活中的方方面面。人们在社交网络上与人交流,记录生活的点点滴滴,发表博文,分享照片视频等,可以说,社交网络已经成为人们现实生活的一个映射。然而,随着微博平台的发展,信息量以爆炸式速度进行增长。从而造成了一种现象,称作信息爆炸,周围的信息太多,用户并不是对所有的信息都感兴趣,用户不得不从大量的信息中找出自己感兴趣的进行阅读。因此,本文着手于如何找出用户感兴趣的博文呈现在用户面前,将用户更感兴趣的博文放在前面,给用户推荐他所感兴趣的博文。本文主要完成了以下工作:首先,本文针对微博平台中噪声多的特性,提出了话题性博文的概念,利用Twitter博文数据训练LDA模型作为博文词汇话题特征,并结合微博博文词汇话题特征、博文社交特征和博文文法特征构建支持向量机模型,用以过滤非话题性博文。实验表明,该分类器具有较高的准确率及召回率,能够满足系统要求。接着,在上述方法的基础上,提取用户博文关键字,并分别利用搜索引擎以及外部知识库对博文关键字进行扩展。接着利用离线维基百科语料库训练Word2Vec模型,将用户博文关键字映射到高维向量空间上。然后利用层次聚类方法,对用户博文关键字集合进行聚类,综合聚类纯度以及类簇权重,选出top-3用户话题用以表征用户兴趣。并通过实验验证了算法的有效性。最后,综合非话题性博文过滤技术、博文关键字扩展技术、博文词汇向量化技术、用户兴趣发现技术,设计实现了一种在线的用户兴趣发现及个性化博文推荐系统。并分析了系统各个模块的设计与实现,包括博文采集模块、数据预处理模块、用户兴趣发现模块等。
其他文献
LOD(Level–of–detail)模型表示法是一种有效的三维实体表达方式。其在计算机图形学、虚拟现实、地理信息系统、医学图像系统等领域有广泛的应用。现今在这些领域所构造和使
灰色系统理论以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定性系统为研究对象,主要通过对“部分”己知信息的生成和开发提取有价值的信息,实现对系统运行
主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传
入侵检测技术能够同时检测来自系统外部和内部的攻击,并对检测到的入侵行为作出响应。随着网络技术的发展和网络带宽的迅速增长,入侵检测系统的处理速度由于无法与高速网络带
随着各种医学影像设备的大量涌现,医学图像成为现代临床诊断和医学研究中不可或缺的工具。面对这些海量的医学图像数据,如何有效地组织、管理和检索大规模的医学图像数据,已
随着互联网规模逐渐扩大,域间路由安全问题日益加剧。近年来国内外已经发生多起路由安全事件,对整个互联网也造成很大影响。BGP作为互联网的核心路由协议,其本身却缺乏有效的
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、文本生成等自然语言处理领域
随着Linux操作系统应用范围不断扩大,其所面临的安全威胁也不断增多,而其中非常重要的一种威胁就是提权攻击。攻击者一旦利用系统中应用程序或内核中存在的提权漏洞成功将用
随着Internet的快速发展,Web上的信息量越来越大,为了帮助人们在浩如烟海的互联网中查找信息,搜索引擎应运而生并得到了快速发展。然而,由于人们对信息的需求越来越专业化、
近年来,医疗仪器技术发展非常迅速,在人类的健康检测,疾病辅助诊治方面发挥了重要的作用。特别是医疗B超,因其无创伤,无痛苦,无辐射等诸多优点,被广泛应用于医疗诊断。本文针对当前B