【摘 要】
:
随着信息技术的飞速发展,信息量呈爆炸式增长从而产生了海量数据,为了从中提取有价值的信息,数据挖掘技术应运而生,而聚类分析技术又是数据挖掘领域中的一项重要任务,在各行
论文部分内容阅读
随着信息技术的飞速发展,信息量呈爆炸式增长从而产生了海量数据,为了从中提取有价值的信息,数据挖掘技术应运而生,而聚类分析技术又是数据挖掘领域中的一项重要任务,在各行各业均有广泛的应用。尽管聚类分析技术近些年已经得到了长足的发展,如何综合利用各种聚类思想的长处,提出更加优秀的聚类算法依然是一大研究热点。密度峰搜索聚类算法是2014年在Science杂志上提出的一种融合密度与划分思想的新型聚类算法,其思路新颖并且具有良好的聚类能力。经过深入研究和分析,本文借鉴了该算法的优点,并对其存在的不足之处进行改进,提出了一种基于势能场模型的层次优化聚类算法。传统密度模型对邻域半径敏感,在计算过程中仅考虑局部数据对象,往往效果一般。改进算法在首阶段引入了势能场模型,利用数据集的整体分布信息实现对数据对象的精确描述,而构造基于势能的边缘加权树可以对原始分配策略进行良好的优化。此外,在决策值的计算上,算法也充分考虑了数据集的分布特征,利用离散程度自动确定参数的权重,并在此基础上结合正态分布的思想,以积极的策略将决策值大于置信区间上限的数据点全部选取为潜在聚类中心,进而获得多个初始聚类子簇。密度峰搜索聚类算法受其聚类原理的限制,往往难以识别稀疏类簇和均匀分布的类簇。在改进算法的第二阶段,受层次聚类思想的启发,本文提出了一系列基于势能的类簇合并准则,通过比较类簇的平均势能与类簇边界区域的势能,逐步融合首阶段产生的多个聚类子簇,从而得到最终的聚类结果。利用该阶段的层次优化聚类,算法可以自动确定聚类终止点,无需事先指定类簇的个数,并且对任意形状、分布、大小和密度的类簇都具有良好的识别能力。在二维和多维数据集上的对比实验表明,改进算法相较于其他对比算法,聚类质量显著提升,稳定性更高,具有更强的类簇识别能力,对于高维数据集的处理效果也有一定改善,而整体聚类耗时却没有明显的增长,证明了本文算法的优越性,而改进算法在出版传媒企业读者细分中的良好应用,也体现了本文聚类算法应用于实际问题时的有效性。
其他文献
固态发酵是发酵基质中没有或几乎没有游离水的存在,并以气相为其连续相的发酵方式。水分在固态发酵过程中发挥着重要的作用,主要包括发酵基质营养的运输和热量的散发。随着发
本文主要利用矩阵零空间的性质,幂等矩阵的性质,群逆、Drazin逆的定义和待定系数法研究两个不同的幂等矩阵P,Q的一些组合在不同的条件下的群逆、Drazin逆的计算公式和指数.这些结果推广了两个不同的幂等矩阵P,Q的组合在特殊条件下的相应结果.本文主要研究以下内容:(1)运用矩阵零空间的性质证明了复数域上两个不同的非零幂等矩阵P,Q的组合a1P+b1Q+a2PQ+b2QP+…+a2n-1(PQ)n
荧光粉作为荧光粉型LED不可或缺的一部分,其性能的好坏大大地影响了LED器件所输出的光色品质。在荧光粉型LED实际的制造过程中,人们通常采用点胶的方式将荧光粉涂抹到芯片表
地理数据,是直接或间接关联着地球上某个地点的数据,也是表示地理位置、分布特点的自然现象和社会现象的诸要素数据。在使用地理数据的用户业务中,一个新颖而有实用价值的研究方向是针对地理轨迹的相似性分析。在进行犯罪同伙分析时,一般的犯罪同伙,都有着相同或者类似的轨迹。通过对相似轨迹的检索和相似度的排序,可以迅速找出最有可能协同犯罪的嫌疑人,从而极大提高侦察的效率。但是目前业界相关系统基本上都是关注轨迹的存
如今,无线通讯技术在当代社会中的重要性越来越高,人们对微波器件的性能要求逐渐向小型化、多通带、低损耗、高选择性的方向发展,特别是受到目前电子通讯设备越来越便捷化的
贵金属纳米粒子的物理化学性质取决于它们的形貌、尺寸、元素组成和界面性质。其在可见光或近红外波长光区内表现出强烈的局域表面等离子体共振(LSPR)性质。因此,不同形貌的贵金属纳米粒子在生物成像和比色生物分析中已经被广泛应用。但是,不同形貌、种类的贵金属纳米粒子与生物分子的相互作用强弱及其机制尚不清楚,如何选择合适的纳米探针应用于生物成像及分析受到局限。本论文旨在通过研究贵金属纳米晶与核苷酸之间的相互
奥扎莫德(Ozanimod),是一种新型口服、选择性鞘氨醇1磷酸受体(S1P1R)调节剂,开发用于自身免疫性疾病的治疗。其治疗多发性硬化症(MS)项目已处于III期临床,治疗克罗恩病(CD)项
改革开放以来,由于我国市场经济体制建立和不断发展,公司作为经济的细胞,它的生产和经营对我国经济具有举足轻重的影响。而有限责任公司作为公司形式的一种,在出资成立的过程
运动目标的检测和跟踪作为智能视频监控系统中的基础技术,广泛应用于生产、交通和安全等各个领域。通过监控视频可以获得很多有效的信息进行比对和分析,其中行人再识别研究就
静态软件缺陷预测技术根据静态代码特征以及机器学习分类算法将软件模块分为有缺陷或无缺陷两类,已发展为软件缺陷预测的主要技术之一。但并非所有的软件特征对分类都是有益