数据约减方法研究及聚类有效性分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:ab888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能、信息技术的不断进步,各行的数据量不断涌现:基因数据、医疗数据、金融数据等等,人类正在进入数据化的时代。面对大量数据,如何去除噪声、冗余数据,挖掘出隐藏在其中有价值的信息是大数据时代所要解决的主要问题之一。数据约减技术正是解决这一问题的有利工具。目前的数据约减技术主要集中在特征约减上,对数据集中样本约减研究甚少,针对现有状况,论文对数据中样本约减技术进行了研究,并在此基础上针对聚类领域的有效性问题进行了探讨、分析。数据约减的主要目的就是将数据集中不重要的信息去除,使剩余后的数据更加有利于分析。文中针对数据集分布的一般规律特性,提出了两种数据约减方法:基于网格的数据约减方法、基于向量角的数据约减方法。基于网格方法中通过划分数据空间,定义数据点的绝对密度及相对密度,达到数据约减的目的。基于向量角方法中通过确定每个数据点的平均向量角大小,区分数据集中的核心、边界对象,逐步将边界对象删除,保留数据集的重要信息数据。对人工数据集及UCI数据集分别采用所提算法进行试验验证,结果显示所提出的算法能有效地去除数据集中的冗余数据点,使数据集的结构信息更加明显。数据挖掘中聚类技术由于特有的无监督特性,使得该分析方法在处理海量信息时得到了广泛的应用。但聚类领域中的有效性问题一直是研究的热点问题。聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性及聚类算法的影响,所确定的类数难以保证。文中以数据约减为基础,对约减前后的数据集从聚类准确率、最佳类数确定等方面进行分析,实验表明约减后的数据集中类间分离性增大,且约减后的数据集具有更高的聚类准确性,所确定的最优类数更接近数据集本身的类数。
其他文献
文学作品是以语言为工具,以各种文学形式,形象地反映生活,表达作者对人生、社会的认识和情感的著作。不同的文学作品有着不同的表达形式,而文体论是一门研究文章形式特征的学问。因此,通过对文学作品的文体论研究可以总结出作者特殊的语言表达特点,了解作者的思想以及当时的社会背景。金学铁是朝鲜族文坛上最具代表性的作家,是不可或缺的传奇人物,而长篇小说《说吧,海兰江!》不仅是他的代表作,也是建国后在朝鲜族文坛上出
随着汽车轻量化理念的逐渐普及,人们对汽车零件重量和质量的要求越来越高。材料科学的发展使工程塑料的某些力学性能已接近甚至超过了部分金属材料,所以用塑料替代金属已成为
随着国民经济的快速发展,科技的不断进步,社会生产方式和生活方式的变迁,知识要素、智力资本在提高企业生产效率、提高企业利润上所起的作用越来越突出,甚至成为关键性因素。
随着计算机以及网络技术的迅猛发展,信息网络应用深入到各行各业中,创造出极大的财富。然而,信息网络在给人们带来种种物质和文化享受的同时,网络信息安全已成为不可忽视的重
随着网络技术的日益发展,网络对人们的日常生活产生了愈来愈深远的影响,在给人们带来极大便利的同时,随之衍生的网络安全威胁也愈加强烈。网络安全问题目前已严重阻挠了网络
近年来在移动机器人研究领域中,多机器人系统的研究重要性愈发突出。随着硬件技术的不断发展,例如单机器人控制、感知精度的提高,众多学者致力于多机器人协作工作的研究,并且
一直以来,中小企业都是拉动经济快速发展的重要动力,我国中小企业占比超过99%,GDP和税收贡献率都在50%以上,解决中小企业融资难题,让企业能够有效率的融资一直是世界各国关心
AOD(氩氧脱碳炉)渣是不锈钢冶炼过程中产生的副产品,具有硅、钙含量高的特点,其化学成分与水泥较为相似,具有较好的可回收利用价值。然而,AOD渣中含有一定含量的铬元素,铬元素
鲁迅对日本的重要意义在半个多世纪中持续升温,且不断迸发出新的生机活力,与现代日本文学结下深厚因缘,虽是外国文学家其文学却被作为国民文学来对待,被人们所普遍接受。同时鲁迅对战后日本文学、文学研究发展产生助力,对日本国民的主体精神重建也有重要作用,影响了众多文学家的成长和选择,使其能够客观地面对战中战后的格局发展,并以文学作为反映途径,对日本的近代和当前进行反思与文化批评,这其中便包括大江健三郎。大江
计算机视觉由目标成像、目标检测、目标跟踪和目标识别四个子课题组成,其中目标跟踪的研究进展较为滞后,其需要应对跟踪场景中各种复杂情形的挑战,如外观变化、光照变化、尺