面向微博信息的K-means算法改进研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hai_john
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为现今社会普遍关注并使用的社交媒介,微博已经逐渐融入到日常生活中的方方面面。微博在带来成千上万条信息(包括微博博主主页信息、热门话题信息、博文的评论信息)的同时,也会显得非常繁杂。此时,如何从大量的微博信息中找到自己感兴趣而有价值的信息就成为众多学者研究的内容。针对这一内容,数据挖掘领域的文本聚类理论无疑提供了良好的解决方式。文本聚类中应用较多的算法就是K-means算法,一种无监督的文本聚类算法,其聚类的效果明显、速度较快。但是研究表明,该算法还存在着一些非常明显的问题或者是不足,主要集中于簇类个数K值的确定、初始聚类中心的选择以及孤立点对聚类效果的影响。针对K-means算法存在的以上问题,本文以深受关注的微博信息为数据集,在经过文本预处理之后,对K-means算法做出针对性的改进,并进行一系列实验去验证,主要的研究内容如下:(1)微博数据集的制作过程。为了获取本文所需的微博信息数据集,专门针对网页信息抓取技术及相关工具进行了学习研究,顺利抓取数据上千条,并对其进行分词、去停用词、特征选取、向量表示等一系列预处理操作,制作本文所需的数据集。(2)针对传统K-means算法在初始聚类中心选择上存在的随机性问题,本文在系统性地理解K-means算法基本原理的基础上,构造了文本之间的距离矩阵及其标准差,通过标准差来选择第一个初始聚类中心,同时根据距离大小选择剩余的初始聚类中心。(3)在选择第一个初始聚类中心后,按照“距离越大,文本相似性越低”的原则,确定离第一个初始聚类中心最远的文本对象为第二个初始聚类中心,然后选择离前两个聚类中心都最远的文本对象为第三个初始聚类中心,以此类推,直到选出K个初始聚类中心。(4)针对传统K-means算法在聚类过程中单纯地以距离为相似性度量标准这一问题,本文按照特征词与类别之间的互信息性,构造了文本互信息值与欧氏距离的商值公式,并以此作为相似性度量标准,从一定程度上提高了聚类效果的准确率。最后对全文进行了总结,全面总结了本文的主要研究内容、改进点以及实验的过程,并对K-means算法研究的发展方向及以后的研究问题进行了阐述。
其他文献
本文利用地面加密观测资料、探空资料、NCEP再分析资料和多普勒天气雷达组网拼图资料,结合中尺度模式WRF输出的高时空分辨率资料,研究了2014年6月19-22日发生在江南地区的一
无线通信系统中,由于无线信道具有衰落特性,而且这个特性仍然是影响无线系统性能的决定性因素。想要对抗无线信道的衰落特性,学者们不断的提出来各种方法,其中采用基于多天线
目前的网络环境需要从不同子网收集入侵信息,并从中检测出入侵程度。在这种情况下,分布式入侵检测系统应运而生。然而,传统的网络入侵检测系统因为存在单点瓶颈问题,在面对大
材料是工业产品、生活用品中不可或缺的物质构成,具有重要的作用。大多数材料在诸如大气温度、湿度、雨水等自然环境因素的影响下,特别是金属材料,其表面会产生各种腐蚀现象,
格库描述了深层结构的语法语义信息,是自然语言处理领域的基础性资源,对句法分析、词义消歧、机器翻译等任务的研究具有重要意义。与日语、英语等语言相比,汉语的格库构建工
2002年,著名密码学家Klimov和Shamir首次提出T函数的概念,作为一类新型非线性密码函数,其将基本的代数运算和易于现代处理器高效实现的逻辑运算相互混合,不仅实现速度快,效率
本文的研究目标是基于跨模态分析实现对隐式网络水军的检测,发现隐式网络水军新线索。提出了两种隐式网络水军检测算法,分别是:基于跨模态的隐式网络水军检测算法(CDM),与基
1927-1949年是南京国民政府的统治时期,为了发展经济,维护自身统治,从其建立之初就在统治地区开展了农业推广工作。至抗战爆发后,国民政府为了保证前方官兵与后方居民的钱粮
随着微电子技术的发展,超大规模集成电路的出现,使得集成电路的布板设计日益复杂和精密,进而使得搭载着微处理器的电路板也越来越复杂。含有微处理器的智能电路板大都是计算
碳化硅(SiC)金属-氧化物-场效应晶体管(MOSFET)是当前主流的功率半导体器件之一,目前仍面临高电场下栅介质层的漏电流及可靠性问题。本文通过使用高介电常数的Y2O3材料替代传统的