基于孤立系数的孤立点检测研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:qingqing20090756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年孤立点检测研究已经成为数据挖掘的热点。孤立点检测的作用是扩展人们的感官功能,来发现那些不能被人们容易发现的知识,识别那些隐藏的重要模式。而这些知识和模式可能对人们有更大的价值,因此对于孤立点检测的研究有着重要的意义。首先根据对象属性值的描述方式,把对象的属性分为数值型属性和非数值型属性,并针对非数值型属性提出了数值化的处理方法。为了减小传统的计算对象间距离的复杂度,在考察对象间距离时本文提出了一种新的相似距离计算方式。根据对对象相似距离的分析得到对象的相似连通性的性质,并把此性质做为缩小可疑孤立点候选集的剪枝策略。根据聚类结果的情况,当聚类结果理想时采用基于相似距离的孤立点检测算法。该算法利用基于聚类算法得到粗糙孤立点集合,把数据集分为可疑孤立点集合和聚类集合,提高了检测结果的准确性。同时引入了聚类的平均属性值对象概念,在计算对象与聚类间距离时,用聚类平均属性值对象来代替聚类,从而大大简化了计算复杂度。而当聚类结果不好时,则采用基于参考距离的孤立点检测算法。该算法应用基于统计算法中的切比雪夫不等式理论对数据进行预处理,得到可疑孤立点集合,根据给定的参考点计算可疑孤立点的参考距离,并以此作为判断是否为孤立点的标准。最后对基于相似距离算法和基于参考距离算法进行了仿真实验。实验结果证明两个算法具有有效性和较高的准确性。
其他文献
随着存储硬件成本的不断降低,大数据生态系统的复杂变化,计算框架与存储系统的多样性和异构性发展,基于内存的分布式文件系统,数据库等一系列产品孕育而生,用来整合整个大数
企业应用得益于那些具有丰富语义的企业知识,本体能为知识管理系统中各种符号提供共享的概念模型且在其中的应用越来越广泛。随着本体规模的增大,本体构建工具对于本体开发过
近年来,视频分享网站、IPTV数字电视、手机电视、视频监控等视频类服务大量涌现,H.264作为目前最先进的视频压缩技术,其出色的网络亲和性使得H.264在上述领域得到广泛应用。
在无线传感器网络中,传感器节点的位置信息对于实际应用来说是非常重要的,比如在事情监测中,当事情发生时需要知道它所发生的位置,这个时候就需要知道传感器节点的位置信息,
高性能服务器的应用领域越来越广,目前已经广泛应用于银行、军事、航天、气象服务等领域。在这些领域中,高性能服务器都是用来处理关键的业务,系统数据丢失或者异常停机都会
无线传感器网络(Wireless Sensor Network, WSN)是当今国际备受关注的前沿热点领域,掀起了一场后PC时代的革命。无线传感器网络是由大量具有感知能力、计算能力和通信能力的
全系统模拟器可以用于指定模拟某个硬件平台,因此其被广泛用于软件开发、错误判定、内存访问情况的查看和分析等用途。多核技术的发展为全系统模拟器技术带来了众多机遇同时
随着计算机存储器技术的发展,近年来出现了一类新型存储器—按字节寻址非易失存储器(byte-addressable non-volatile memory),简称NVM。NVM融合了传统DRAM按字节寻址和传统外
社团结构是复杂网络普遍而又重要的拓扑属性之一,它具有团内连接紧密、团间连接稀疏的特点。揭示网络社团结构对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网
当今时代,数据爆炸为近似聚集的效率和准确性提出了很大挑战。为了提高近似聚集的效率和准确性,我们引入了机器学习领域的杠杆机制。在传统的杠杆机制中,杠杆反映了样本的个