论文部分内容阅读
作为现今社会普遍关注并使用的社交媒介,微博已经逐渐融入到日常生活中的方方面面。微博在带来成千上万条信息(包括微博博主主页信息、热门话题信息、博文的评论信息)的同时,也会显得非常繁杂。此时,如何从大量的微博信息中找到自己感兴趣而有价值的信息就成为众多学者研究的内容。针对这一内容,数据挖掘领域的文本聚类理论无疑提供了良好的解决方式。文本聚类中应用较多的算法就是K-means算法,一种无监督的文本聚类算法,其聚类的效果明显、速度较快。但是研究表明,该算法还存在着一些非常明显的问题或者是不足,主要集中于簇类个数K值的确定、初始聚类中心的选择以及孤立点对聚类效果的影响。针对K-means算法存在的以上问题,本文以深受关注的微博信息为数据集,在经过文本预处理之后,对K-means算法做出针对性的改进,并进行一系列实验去验证,主要的研究内容如下:(1)微博数据集的制作过程。为了获取本文所需的微博信息数据集,专门针对网页信息抓取技术及相关工具进行了学习研究,顺利抓取数据上千条,并对其进行分词、去停用词、特征选取、向量表示等一系列预处理操作,制作本文所需的数据集。(2)针对传统K-means算法在初始聚类中心选择上存在的随机性问题,本文在系统性地理解K-means算法基本原理的基础上,构造了文本之间的距离矩阵及其标准差,通过标准差来选择第一个初始聚类中心,同时根据距离大小选择剩余的初始聚类中心。(3)在选择第一个初始聚类中心后,按照“距离越大,文本相似性越低”的原则,确定离第一个初始聚类中心最远的文本对象为第二个初始聚类中心,然后选择离前两个聚类中心都最远的文本对象为第三个初始聚类中心,以此类推,直到选出K个初始聚类中心。(4)针对传统K-means算法在聚类过程中单纯地以距离为相似性度量标准这一问题,本文按照特征词与类别之间的互信息性,构造了文本互信息值与欧氏距离的商值公式,并以此作为相似性度量标准,从一定程度上提高了聚类效果的准确率。最后对全文进行了总结,全面总结了本文的主要研究内容、改进点以及实验的过程,并对K-means算法研究的发展方向及以后的研究问题进行了阐述。