基于领域知识的半监督聚类算法研究

来源 :北京化工大学 | 被引量 : 11次 | 上传用户:cntanmingyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域的基本方法之一,它根据数据对象之间的相似性,把数据对象分割成簇。从机器学习的角度,聚类分析被看作是一种无监督的学习方法,对数据的分析不需要知道数据相关的类别信息。然而,在现实生活中,人们对所要分析数据的相关领域知识并非完全一无所知,通过这种知识能够发现数据对象标识或相互之间的约束信息。半监督聚类就是在聚类过程中引入先验知识来指导聚类过程,从而改进聚类结果。目前,半监督聚类方法已成为人们研究聚类方法的新热点。本文从约束的角度、属性的角度、规则的角度和实际应用的角度来研究半监督聚类的实现方法及实际应用效果。本文的主要工作及创新点包括:1、通过分析COP-KMeans算法,指出了其中的不足,引入按约束集分配的方法及辅助质心的概念,提出了改进的MLC-KMeans半监督聚类算法,并通过实验证明了改进算法的有效性;2、针对属性和类标识及属性和约束的相互关系,一方面采取属性约简方法,通过分析已知的标识数据对象,来消除冗余的属性,在新的属性集上进行聚类;另一方面,通过对约束对象属性范围进行限制,找到新的约束集合,来指导聚类过程。通过应用两种方法,达到了较好的聚类效果;3、利用关联规则方法,通过分析数据集中的部分标识数据,发现数据属性子集和类标识之间的关联关系,并把此规则作为先验知识,引入到聚类过程,来改进聚类效果。基于关联规则的半监督聚类方法有效地利用了规则信息,展现了利用数据挖掘方法发现的先验知识和属性子集的关联约束关系在半监督聚类中的应用;4、通过把半监督聚类的方法应用到Web用户的聚类分析之中,来检验半监督聚类的实际应用效果。本文详细描述了从Web日志获取到聚类分析的过程。
其他文献
视频中多目标跟踪技术是图像理解、计算机视觉等领域的一个核心研究课题,现已广泛地应用于军事视觉制导、机器人视觉导航、交通管制等领域,因此对多目标跟踪技术开展研究有着
近年来随着各种数码产品的兴起,带动了高清显示技术、数码相机和互动图像应用的发展,从而使图像处理技术的研究成为当今IT领域中的热点,同时,随着互动高清显示技术相关研究项目的
无线传感器网络是当前国际上备受关注的、由多学科高度交叉的新兴前沿研究热点领域。无线传感器网络能够通过各类集成化的微型传感器协作地实时监测、感知和采集各种环境或监
视频拼接技术是指应用若干个摄像设备,在视角部分重叠的范围内,同时对场景摄像,将获取的场景视频序列,拼接成宽景乃至全景视频的技术。视频拼接在视频监控、电视转播、医学等领域
随着虚拟化技术日臻成熟,多数企业也已将传统PC迁移到桌面云上。oVirt-KVM桌面云作为一套成熟的企业私有云解决方案,是实现各行各业互联网+的重要技术支撑之一。但是虚拟化技
随着数字信息的爆炸式增长和个人与组织对这些信息的依赖性不断增加,存储系统正逐渐成为整个信息系统的中心,数据成为最重要的资产,而存储系统作为数据的储藏地,是数据保护的
现代计算机技术的飞速发展,导致了计算机在医疗卫生领域的广泛应用,以虹膜学为基础的计算机辅助虹膜诊断技术正方兴未艾。成熟的计算机技术,以及飞速发展的数字图像处理、模
贝叶斯网络是用来表示变量间概率分布的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系,具有稳固的数学基础,由于其具有图形化的模型表示形式、局部及
随着信息技术的迅猛发展,即时通信软件在文件传输中发挥着越来越重要的作用,文件传输的多样化也引起人们的关注。基于XMPP协议构建的Kodsun即时通信软件,注重于高安全、高效率的
随着互联网信息技术的不断更新与快速发展,大量僵尸网络与恶意通信的出现严重威胁了网络安全。尽管目前协议解析技术发展已经相当成熟,但是在零先验知识的情况下对于纯比特流