基于K-均值的文本聚类分析

被引量 : 13次 | 上传用户:junar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的K-均值算法(K-means clustering)是一种得到最广泛使用的聚类算法。其应用领域非常广泛,包括文本聚类、图像及语音数据压缩,使用径向基函数网络进行系统建模的数据预处理,以及异构神经网络结构中的任务分解。而且对大型数据集而言,K-均值算法是具有相对可伸缩的和高效的性能。由于K-均值算法聚类效果依赖于数值K的确定、聚类中心的初始位置和相似度量的计算等的选取,并且K-均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小值,该局部最小值与全局部最优解往往有很大的偏差。针对K-均值算法中的不足,从几个方面对传统的K-均值算法进行改进,首先提出了一种间接的学习权值算法可以得到一个好的距离度量,即如何学习加权距离式中的特征权值,以改进K-均值算法的聚类性能。该算法主要是构造一个评价函数,采用梯度下降技术极小化评价函数来降低相似矩阵的模糊性。通过评价函数求权值偏导数逐次调整权值,每次计算偏导,应用公式更新权值。如果评价函数的值低于或等于一个最小阈值或者迭代次数超过某一次数阈值时结束学习。当一组向量相似性较大时,可以通过学习特征权值改变它们属于同一类的程度,使其相似性变大。当一组向量相似性较小时,可以通过学习特征权值减少它们的相似性。因此这样通过极小化评价函数学习到的即为特征向量的权值,改善了聚类性能。其次提出针对参数K值的学习算法,初步使用了遗传算法选择较优的K值。虽然还没有提出寻找K值的方法,仍然是可以通过对不同值的实验决定具体取值。最后,基于传统K-均值算法实施的各个环节,提出几种不同的K-均值改进算法,对K-均值聚类算法进行一些有益的改进。本文使用改进后的算法,对一些数据库进行聚类实验,实验结果表明,在所用的算法达到了预期的效果,提高了算法的聚类效果。
其他文献
随着目前研究生招生规模的不断扩大,部分高校现有的教学资源已不能满足日渐增长的研究生数量及培养质量要求。高校之间联合培养硕士研究生逐渐成为解决这一问题的有效手段之
在水泥这类高耗能企业中,电费已成为主要的成本。随着竞争的日益加剧,多数水泥生产企业都面临着利润下滑的处境,对此,只能从强化成本控制方面着手。我国是水泥生产大国,而水
智能天线技术做为未来移动通信系统的关键技术,具有增加系统容量、扩大系统覆盖范围、改善服务质量等一系列优点。然而至今为止,绝大部分的研究都集中在基站智能天线,移动终
改革开放30年,加工贸易在我国蓬勃发展,在我国的对外贸易中占有极其重要的地位,为我国的经济增长与发展做出了巨大贡献。但是,其局限性也日益显现出来。加工贸易是我国参与国
诉讼中的自认是指当事人在诉讼过程中向法庭承认对方所主张的不利于己的事实。自认证据的价值具有特殊性,它具有比其他证据的诉讼成本更为低廉的特点。一方当事人的一个真实
超导技术在电力领域的应用研究已经受到了广泛关注。目前已有超导故障限流器、超导磁储能装置、超导变压器、超导电动机和超导电缆研制成功并投入示范性运行。本文总结了超导
通识教育作为一种具有悠久历史的教育形态,是现代高等教育的重要组成部分。我国大学通识教育经过几十年的发展,依然存在通识教育目标定位模糊,通识教育课程结构失衡,通识教育教学
当前在野外的油井压裂施工当中,经常会遇到一些比较恶劣的环境天气,同时受到高压作业环境的影响,压裂车组不能有效实现远程操控功能。依照压裂施工过程当中,对压裂车组的远程
本文以普通油茶为对照,在人为控水模拟自然干旱的条件下,通过测定嫁接苗叶片的永久萎焉系数、叶片相对含水量、超氧化物歧化酶活性等抗旱指标,研究了陆川油茶、广宁红花油茶
目前,不论在理论界还是实践界,市盈率都引起了人们广泛的讨论与研究。我国目前的股市市盈率比较高,但这是否就意味着股市存在泡沫,值得仔细研究。由于缺乏对我国股市市盈率状