针对非均匀数据集的DBSCAN过滤式改进算法

来源 :重庆大学 | 被引量 : 0次 | 上传用户:tangq_000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。由聚类所生成的类是一组数据对象的集合,这些对象与同一个类中的对象彼此相似,与其它类中的对象相异。在许多应用中,可将一个类中的数据对象作为一个整体处理。当分析一个较大的、复杂的、连续的、有许多变量的数据库和完全未知的结构时,聚类是一个非常有用的工具。目前,聚类分析算法大体上分为划分的方法,层次的方法,基于密度的方法,基于网格的方法和基于模型的方法。DBSCAN算法是一种典型的基于密度的方法,该算法的优点是可以发现任意形状的聚类,且聚类结果受噪音点影响小。但是该算法存在如下缺点:算法中需使用到全局变量Eps和MinPts,若变量取值不当,会影响聚类质量;当数据分布不均匀时,采用全局统一的变量,会降低聚类质量。针对DBSCAN算法的缺点,本文在结合一种减少邻域搜索思想的同时,提出了一种DBSCAN过滤式改进算法。该算法首先对k-dist数据进行一维聚类,同时去掉噪声类,从而得到能代表主要密度水平的类;然后再根据一维聚类结果自动计算出Epsi,为后面的过滤式聚类作好准备。在得到参数Epsi后,该算法根据不同的Eps分别进行聚类,从而找出非均匀数据集中的各种聚类。在聚类过程中,每当下一次调用聚类算法进行聚类时,将去掉已经聚成类的数据点,以避免数据点被重复聚类。由于改进算法首先通过对k-dist数据进行一维聚类,以得到不同密度水平的Epsi,然后再根据Epsi进行过滤式聚类。因此,在针对密度不均匀的数据集时,改进算法的聚类质量更好,并更能反映数据集的分布特征。
其他文献
随着信息技术的发展,不同语言之间的沟通和交流变得越来越重要,在此背景下机器翻译等自然语言处理技术得到长足发展。作为当前研究热点之一,命名实体识别及翻译技术正广泛应
自然语言处理各种底层技术的不断发展,如分词、词性标注、句法分析等技术的逐渐成熟,为更深层次的研究奠定了基础。目前,越来越多的研究人员开始把目光转向自然语言理解。复
随着Windows操作系统在可靠性方面的不断完善以及其良好的用户界面,此操作系统以及其之上的软件产品应用到社会的各个领域,人们对软件的性能和可靠性有了更高的要求。软件产
物联网技术在各行各业应用越来越广泛,对物联网技术的研究也越来越多。随着物联网技术中硬件和软件的广泛应用,安全问题也日益突出。对消息传递中的通信主体进行身份验证,对
业务的快速增长和行业间竞争的加剧,使得如何提高服务质量并降低生产成本成为电信行业发展的关键。由早期基础建设管理和规划的不完善所导致的信息孤岛等问题,使得管理层无法
近年来,无线局域网(WLAN)以其安装便捷、使用灵活等优势,得到了大规模的部署。WLAN上承载的业务也覆盖了从标准互联网业务到实时业务的范围。实时业务对服务质量(QoS)有较高的
中文问句中,疑问词与中心词揭示了问句的大部分信息,因此,在中文问句处理中,识别疑问词与中心词变得尤为重要。由于中文的疑问词相对固定,数量也不多,故疑问词的识别准确率很
随着Internet网络的不断发展,消费者通过商家的网站、网络论坛、BBS以及Blog发表关于各种产品的评论信息。商家、厂家可以通过分析这些评论信息获取反馈意见;消费者可以通过
为适应电信网技术飞速发展和名目繁多的电信新业务的需要,ITU-T(International Telecommunication Union-Telecommunication Sector,国际电信联盟-电信标准局)提出了对电信网
XML在许多应用中已经成为数据交换的标准。然而,XML数据的自描述特性和半结构化特性使得XML数据中存在大量的数据冗余,这使得人们在获得XML数据带来的灵活性的同时不得不忍受