结合抽样和分组的密度聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yushion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代产生的数据量呈指数型上升,这些数据中潜藏着巨大价值。从海量数据中找到感兴趣的信息,成为一个难题。但是数据挖掘却可以比较精确和高效地找到其中的信息。聚类分析作为数据挖掘中常用技术,能够在无先验知识的时候,发挥很好的信息发掘作用。基于密度的聚类分析方法是聚类分析中一类重要方法,它能够检测任意形状聚类、处理异常值,并且不需要预先确定聚类数目。常用的基于密度的聚类算法是DBSCAN算法,除了拥有聚类分析的特点以外,对有噪声的数据集也能产生很好的结果。虽然DBSCAN是解决许多问题时有吸引力的方案,但是,和其他一些聚类算法一样,由于其时间复杂度高,并不能很好地适应大型数据集和高维数据集。于是,本文从减少DBSCN抽样数据集的大小和降低其时间复杂度两个方向提出了改进。第一,本文从减少抽样数据集大小的角度,提出了两种生成抽样数据的方法以减少数据集大小,后续DBSCAN算法使用减小了的数据集,执行时间随之减少。第一种方法是对Rough-DBSCAN的中的Leader算法进行了改进,来简单估计每个Leader密度,得到了较好的结果,称为Leader*算法,进而称改进后的DBSCAN算法为Rough*-DBSCAN,与Rough-DBSCAN类似。第二种方法是一种称为I-DBSCAN,是新的启发式算法,它从Leader*算法发现的簇的交叉点中提取样本和元素,能够在不需要任何附加参数的情况下适应所有数据集并且在减少计算时间的方面获得了明显效果。第二,本文从降低其时间复杂度的角度,提出了一种基于邻域图搜索的组方法DBSCAN(Groups-DBSCAN)。Groups方法在数据上构建基于图的索引结构。与R-树等传统的层次索引结构不同,该方法适用于高维数据集。此外,Groups-DBSCAN在处理大量噪声时是有效的,而且不会降低DBSCAN的性能。并且Groups-DBSCAN产生的聚类结果与DBSCAN完全相同,但其运行时间缩短。
其他文献
近年来,人工智能研究和应用的热度持续上升,AI在许多领域中都展现出其独特的优势。智慧农业是人工智能与农业领域应用场景相结合的一个概念,目前,人工智能在农业领域的应用尚有较大拓展空间。农作物在生长过程中的长势监控和计算机自动识别具有重要意义,对农作物物候期,即其周期性生长时间节点的判断,可以及时为农业生产经营者提供作物培育管理的借鉴和指导,从而提升农作物的产量和品质,以及种植人员和经营企业的经济收益
行星轮系与传统平行级齿轮副相比,具有结构紧凑、承载能力更强、传动比大等优点,广泛用于航空、航天等重载场合;但是随着时代的发展,传动系统朝着高速、重载、轻量化的方面发展,传统行星轮系已经不能满足发展的需要,人字齿行星轮系应运而生。但是人字齿行星轮系由于齿轮啮合副的增加导致其结构更加复杂,内部激励更加多样,动力学特性研究更加困难。在人字齿行星轮系中,由于齿轮制造误差、安装误差,零件弹性变形导致齿轮之间
浅水到中层水深度的大多数海上钻探是通过自升式钻井平台进行的,这是由于它们具有公认的灵活性,机动性和成本效益。在海床上安装桩靴以提供自升式钻井平台作业期间的基础稳定性。这些平台用于近海勘探钻井、新平台的安装、维护工作以及有限寿命油田的油气生产。桩靴是连接到自升式钻井平台每条桩腿的锥形基础。在安装和预加载过程中,桩靴穿透是自升式钻井平台行业的重要关注点之一。对于自升式钻井平台桩靴穿透有着潜在的灾难性影
随着闪存(Flash)制程工艺的压缩,闪存的存储密度和容量不断扩大,但随之带来的牺牲是其可靠性被降低了。为了保证闪存的可靠性,我们必须在闪存的读写过程中加入纠错码,然而使用传统的BCH纠错码已经无法满足当前的存储器纠错能力要求,低密度奇偶校验码(Low Density Parity check Code,LDPC)依据其强大的纠错能力开始应用于存储纠错。采用LDPC码进行闪存纠错时,为了读出更准确
面临我国浅层矿产资源开采殆尽的严峻形势,向地球更深部开采矿产资源已成为我国的重要发展战略。矿井提升机作为联系井上和井下的“咽喉设备”,研究和开发井深大于1500m的超深矿井提升装备已成为了深部资源开采的关键。现有的单绳缠绕式和多绳摩擦式提升机已不能满足超深井重载荷、高效率和高安全提升的需求,双绳多层缠绕式提升是实现超深矿井提升的创新思路。超深矿井缠绕式多绳提升机钢丝绳之间的缠绕同步性对于提升系统的
高SiC含量的SiC/Al复合材料具有低密度、比高强度、耐磨性好、高热导率和低热膨胀系数等优异的性能,是最具有应用前景的电子封装材料和耐磨材料。目前高SiC含量的Si/Al复合材料的制备存在着SiC预制体烧结温度高、熔渗工艺复杂且生产效率较低等问题。本文采用真空压力浸渗方法制备SiC/Al复合材料,研究了成型压力、粘结剂的含量、造孔剂的含量、玻璃粉的含量以及烧结温度对SiC预制体的气孔率、体积密度
火灾高温状态下的混凝土,性能劣化,承载力降低,结构遭受破坏时极易发生高温爆裂,造成二次伤亡。在混凝土中掺加聚丙烯纤维,高温状态下纤维融化后产生的微通道可减弱混凝土爆裂风险。课题组前期研究成果表明,聚丙烯纤维具有较好的阻裂、增韧和增强作用,聚丙烯纤维的不同配比、掺量、养护条件对混凝土性能的影响较大,多尺度聚丙烯纤维对混凝土常温状态下的力学性能改善效果最为显著。多尺度聚丙烯纤维混凝土在高温状态下的力学
天然岩体内常见不同尺度的裂隙及其形成的纵横交错裂缝网络,这些缺陷弱化了岩体的强度和变形特性。由于天然岩石中内部三维裂隙的分布及其萌生扩展过程的难以观察,以往学者通常通过预制贯通试样表面的裂纹来研究裂隙岩体,未体现岩石内部裂缝起裂扩展状态,导致其研究成果具有较大的局限性。此外,对于实际工程岩体而言,岩体内部裂纹应是三维的,因此,研究岩石内部三维裂纹的扩展贯通机制对于实际工程建设具有实际意义。本文利用
树木点云模型广泛应用于虚拟现实、古树名木保护、树木生长研究等领域。实际应用中,如树木养分传输研究,树木骨架线比树木点云模型更直接表达植物特性。因此,从点云中提取骨架线有重要应用意义。然而,在点云数据的实际采集过程中由于拍摄环境限制,可能只能获取单面树木点云,导致点云大量缺失。另外,设备和算法误差导致点云分布不均匀、存在噪音。从分布不均匀、有噪音、结构信息大量缺失的单面树木点云中精准提取骨架线是具有
大开口车辐式索承网格结构是一种适用于体育场屋盖的预应力大跨度空间结构。本文采用有限元模拟和理论推导的方法对大开口车辐式索承网格结构设计与施工过程中的边界条件、张拉成形方法和施工误差进行研究,具体研究内容如下:(1)采用通用有限元软件MIDAS/GEN和ANSYS建立了不同边界条件的大开口车辐式索承网格结构分析模型,通过对比不同边界条件下结构的位移、杆件内力、自振特性、双非线性极限承载能力,证明了大