基于密度检测和信息增益的半监督kmeans算法

来源 :河北大学 | 被引量 : 0次 | 上传用户:littlerabit75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息量呈爆炸式增长趋势,海量数据的出现已经成为常态。与此同时也出现数据庞大而知识面对传统的决策系统无法满足现在人们的迫切需求,数据挖掘技术正是解决这一问题的有效方法之一。聚类分析是数据挖掘领域的一个重要分支,半监督聚类算法更是近几年来的研究热点。半监督聚类方法融合有监督学习和无监督学习的优点,既充分利用了少量已标记的数据信息对聚类过程进行约束指导,又不需要对大量的数据进行标记,更贴近实际情况,容易实现。kmeans算法是最早一批被扩展到半监督领域的聚类算法之一,通过引入少量监督信息,能够大大提升聚类准确度和迭代效率。Seeded-kmeans算法是一种有效的半监督kmeans算法,它通过对标记样本的利用完成初始中心点的优化,但是其对于多维数据将各维数据重要性等同视之,对孤立点和噪声点敏感,这些缺点限制了它的应用。本文主要针对Seeded-kmeans算法进行系统研究和改进,具体的研究工作安排如下:(1)对聚类和半监督聚类的背景知识进行了较详细的介绍,包括其基础理论、历史背景、研究现状、发展趋势等。为了能更好地研究半监督kmeans聚类算法,本文对kmeans聚类算法进行了相关介绍,然后举例介绍了两种常用的半聚类kmeans聚类算法。(2)Seeded-kmeans算法的一个缺点是对各属性的重要性评估不足,针对于此,本文引入了基于信息增益的特征选择方法,对Seeded-kmeans算法优化、改进。其算法思想是通过对seed集的充分运用,采用信息增益的方法计算出各属性的权值,然后再运用Seeded-kmeans算法进行聚类。此外,针对Seeded-kmeans算法的对孤立点和噪声敏感的缺点,在Seeded-kmeans算法的基础上加入密度检测,通过计算seed集样本点的密度参数,并对其进行密度检测,不满足所划定临界值的样本点将被视为噪声点进而从seed集中删除,从而提高Seeded-kmeans算法的抗噪能力。(3)将上述信息增益的特征选择方法和密度检测方法进行综合,对Seeded-kmeans算法进行两方面改进,以期取得高精度的聚类结果和较强的抗噪声能力。实验表明,该算法能够获得更优的聚类效果和时间性能,并提升抗噪声能力。最后对本课题的工作做了总结,并进一步展望了下一步的研究方向。
其他文献
随着科学技术的发展,指纹识别技术被广泛应用到各种不同的领域。对于一般的指纹识别系统,其设计要求具有很高的实时性和易用性,因此识别算法应该具有较低的复杂度,较快的运算
由于信息技术发展,信息安全已经成很多重要部门关注的问题。例如:证券交易业务、电话银行业务中账号、密码被截获,军事指挥的语音信息被敌方窃听等。所以普通电话越来越不能
分数阶傅立叶(Fourier)变换(FRFT)是一种新的时频分析工具,受到越来越多研究人员的重视,分数阶傅立叶变换的离散化算法研究成为分数阶傅立叶变换研究的重点。最小均方(Least Me
单载波频域均衡系统(SC-FDE),是在传统的单载波传输和OFDM技术的基础上发展起来的一种新的宽带无线通信技术,SC-FDE和OFDM都是基于循环前缀(CP)的分块传输技术,它们具有相同的抗
聚酯作为化纤、胶片片基、软饮料瓶等产品的重要原料,用途十分广泛。由于聚酯反应过程机理复杂,存在大滞后、非线性、时变性等特点,各反应釜工艺操作条件对出口质量指标影响较大
极化技术作为微带天线理论的一个重要分支,近年来在通信及电子对抗等领域中得到广泛应用。本文以工程项目位背景,研究了利用微带天线的不同结构实现不同的极化方式,即线极化、圆
随着科学技术的不断发展,人们对无线网络的高速率的要求也日益强烈。大多数人已经离不开手机,同时手机也离不开高速的无线网络了。在当下的网络时代,高速的无线网络已经是新
森林病虫害是我国的生态环境建设和造林绿化的严重制约因素,以前采用的主要防治手段为化学防治,但这种方法效率非常低。因而,非常有必要研究出一种利用传感技术实现实时农药
本文论述的是基于DSP的数字混沌加密系统的设计与实现方法。为此,本文从算法设计、硬件设计和软件设计三个方面对本系统进行了详细的论述。 在算法设计方面,本文首先介绍了
运动目标跟踪与识别技术是视频图像处理中的关键技术,该技术融合了图像识别、人工智能、图像处理等多门学科,在智能交通管理、安保系统以及智能模拟系统中具有广泛的应用。本