基于集成的无监督离散化及在数据集相似性度量上的应用

来源 :宁波大学 | 被引量 : 0次 | 上传用户:gaolch006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,模式识别在现实生活中的应用日益广泛,但是一些数据挖掘领域的算法只能处理离散属性值,而现实中的很多数据都呈现连续型,这将直接影响机器学习的效果。根据是否考虑数值的类别信息,离散化可分为有监督和无监督的方法。文献中对前者研究颇深并且效果较好,而后者仍具有挑战性。本文提出了一种基于集成学习的无监督离散化算法,并将其应用于聚类算法选择分析。基于集成的无监督离散化算法的主要思想如下:首先使用k-means对数据集进行划分可得到一些类别信息;然后使用有监督的方法对标签数据进行离散化,重复这两个过程便可得到多个离散结果;再应用集成学习的思想,从这些结果中得到最小子区间集合,最后根据相邻数据之间的相似性关系合并最小子区间,并且提出了两种有效的停止准则来终止合并过程。其中,合并的过程考虑了数据的邻居关系,这样尽可能地保持了数据集的内在结构关系。为验证算法的精确性,可将离散后的数据应用于聚类算法,如谱聚类,然后再评价聚类后的效果。实验结果表明,该无监督离散化算法比其他的四种方法聚类精度平均提高了约33%,验证了其可行性及高效性。聚类分析是数据挖掘等领域的重要工具,由于它是一个病态问题,尽管文献中有大量的聚类算法,但一个聚类算法通常仅适合某些特定的数据集,而用户对数据集并无先验知识,那么如何选择一个适合自身数据集的聚类算法,是一个棘手的问题。根据上述基于集成的离散化方法,本文定义了面向聚类算法特征的数据集相似性度量,并提出了聚类算法选择的框架。其主要思想如下:首先创建一个经典聚类算法空间与典型的数据集空间及两者之间的映射,然后对典型数据集及给定数据集进行二值化(针对离散数据进行处理,因此可应用前面提出的无监督的方法)及其稳定性分析,得到数据集的关于聚类的特征向量,再计算特征向量之间的相似性可得到给定数据集k个最邻近的数据集,最后将邻居的聚类算法推荐到给定的数据集。实验中选取七种经典的聚类算法,对给定的数据集进行聚类效果很好,表明该算法是有效可行的。
其他文献
AIM To estimate Helicobacter pylori(H. pylori) recurrence rate in Latin America, a region with a significant H. pylori prevalence and gastric cancer burden.METH
实践型教学模式是实现中职学校文秘专业教育与满足就业需求相适应的必然选择.其基本内涵是:瞄准低层次秘书职业的社会需求和发展趋势,以现代教育理念作支撑,突出以职业导向为
随着虚拟现实、影视动画和电脑游戏的日益普及,大规模水场景的绘制已经成为一个相当热门和有挑战性的研究课题。虽然在现行的游戏和一些绘制系统中,水面的绘制已经达到了较好的
随着信息技术的发展,教育信息化已经成为世界各国的研究热点。教育信息化的发展使得通识教育背景下的个性化教育成为可能,基础教育信息化是教育信息化中最重要的部分,有助于培养
作为数据传输的新型交换技术,光突发技术(OBS)能很好实现T比特量级数据交换。在OBS研究领域,OBS网络核心节点中由于突发包竞争波长资源而导致的数据冲突是一个研究重点。因此
基于大数据技术及其应用概括当下职业院校就业工作存在的问题,提出大数据时代职业院校就业服务的具体策略,设计新时代职业院校就业信息化服务平台的主要框架,进行平台功能模
随着时代的发展,在教学体系、教学方法、考试方式上都面临着诸多的挑战.改进教学方法、教学手段,采取灵活的考核方式,调动教师和学生的双重积极性,是广大教师面临的重大课题.
从第一批先进性教育活动开展至今,嘉祥县委按照胡锦涛总书记“要确保先进性教育活动真正成为群众满意工程”和省第九次党代会 From the first batch of advanced nature edu
无线传感器网络(Wireless Sensor Network,WSN)是由大量自组织地分布在监测区域中的廉价的无线传感器节点组成的多跳网络。它们互相合作采集、传输、处理该网络中的数据信息,
文章从采用创新教学方式、炼就学生的质疑思维能力、培养学生的独立思维和鼓励学生自主探索与合作交流几方面探讨了在高等数学教学中如何培养高校学生的创新思维.