高维数据的聚类分析方法研究及其应用

被引量 : 0次 | 上传用户:pebblefanny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断深入发展,网络上堆积的数据日益庞大和复杂。数据挖掘是一种将数据转换为有用信息的有效方法。聚类分析是数据挖掘的基本方法之一,其在许多领域都有着广泛的应用。然而,在如网络入侵检测和垃圾邮件甄别的实际应用中,数据普遍存在“高维性”。受“维度效应”的影响,在低维数据空间表现良好的聚类方法运用到高维空间上时,往往无法获得高质量的聚类结果。因而高维数据的聚类分析已经成为近年来研究的一个重点课题。在对高维数据进行聚类分析的研究中,维度约简方法和聚类的鲁棒性是该领域中的两个关键问题。维度约简旨在将高维数据变换到低维空间,但在这一过程中,如何在保证一定聚类精度的前提下高效地对特征进行约简成为一个研究热点。另一方面,由于高维数据分布的内在稀疏性,常用的距离度量(如欧氏距离)和密度度量的有效性大大降低。在数据点之间普遍存在“低相似性”的情况下,如何有效地选择聚类初始中心点并排除孤立点的影响,增强高维聚类的鲁棒性是一个值得关注的问题。针对以上两个关键问题,本文重点研究了基于特征选择的维度约简方法以及高维聚类的初始化(即鲁棒性)方法,主要工作包括以下两个方面:(1)提出一种基于多层过滤的特征选择方法并应用于网络入侵检测。该方法利用粗糙集的特性和遗传算法在解决NP问题上的优势,引入信息论角度定义的特征重要性,并将此度量作为启发式信息,对遗传算法的初始群体进行优化。将特征数目和特征的分类能力结合到目标评价函数中,在提高算法收敛速度的同时取得了更优化的结果。(2)在高维聚类的鲁棒性研究方面,提出新的基于公共近邻密度的中心点初始化算法,并将其应用到入侵检测和垃圾邮件甄别中。该算法利用点的局部密度来评估可能的高密度区域,以此来定位簇的初始中心点;反之,位于低密度区的点被视为孤立点,从而排除了噪声点对聚类性能的影响。该方法更有利于发现不同形状以及不同密度的簇类。实验结果表明,算法提高了聚类结果的稳定性和可靠性。
其他文献
汉语文化负载词的翻译是翻译界的一个难题,在翻译方法和策略的选择上一直缺少科学、规范的参考。本文拟以翻译选择适应论为指南,通过对比几种常用文化词翻译方法的优、缺点来
目的总结关节镜下半月板成形和腘肌腱裂孔前、后缝合治疗累及腘肌腱裂孔的外侧盘状软骨损伤临床疗效。方法 2008年1月-2009年5月,收治21例累及腘肌腱裂孔的外侧盘状软骨损伤
HEC-RAS(River Analysis System)模型是由美国陆军工程师团开发的一款模型,利用该模型可以进行河网的一维水力学演进模拟.模型所需要的河网几何资料可以由HEC-GeoRAS生成.介
当前农业银行的理财业务走入了一个怪圈:农行大行品牌形象→理财产品刚性兑付→承担信用中介职能→缺乏信用中介的风险缓释工具→理财产品的高风险厌恶→高流动性、低风险性
<正>中药饮片质量的控制是确保中医临床疗效的重要环节,而临床中药饮片质量控制的关键在于炮制。中药饮片炮制是根据中医理论,按照医疗、调配、制剂的不同要求以及药物自身性
犯罪被害人国家补偿制度是指国家通过专门建立的犯罪被害人补偿基金或其它资金对遭受犯罪侵害,而国家没有抓获犯罪人或犯罪人无力通过刑事附带民事诉讼对之进行赔偿的特定犯
利用2004—2007年中国科学院中国生态系统研究网络(CERN)生态站实测土壤热通量、辐射等资料,分析了不同土壤类型表层热通量的日变化和季节变化,以及不同土壤类型的热通量与总
语法教学在对外汉语教学中有着举足轻重的作用,它的教学效果直接影响学生对汉语的掌握程度。把字句一直被认为是对外汉语语法教学的一个重点,也是难点。把字句本身的特殊性固
我国民办高等教育的崛起,是我国改革开放以来教育改革与创新的重要成果,标志着我国高等教育事业开始进入多元化发展的新阶段。在我国公共教育投入不足、公办教育资源难以充分
本文探讨树立正确的农业银行效益观问题。