基于Shadowed Sets聚类的离群点检测

来源 :第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议 | 被引量 : 0次 | 上传用户:xm1209xm1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从数据整体和宏观上给出了离群点的新的定义,并基于数据宏观模式定义了一种新的离群因子,该因子考虑了数据点偏离数据模式的程度和数据点本身归类的不确定性;提出了一种新的shadowed sets优化目标,使得在模糊集阴影化过程中更加关注核的准确性;同时基于shadowed sets聚类,提出一种结合聚类的离群点检测算法,该算法可同时进行聚类和离群点检测,通过模拟数据和IRIS数据测试显示算法具有较好的效果.
其他文献
In recent years,data clustering analysis is required by the search of several areas in intuitionistic fuzzy environment.Recently some researchers committed to present intuitionistic fuzzy C-means clus
The expressed genes of plant are often co-occurred.It is posed to biologist how to find a set of coexpressed genes that are relevant to a biological process.In this paper,we proposed a novel method to
随着DNA微阵列技术的出现,大量关于不同肿瘤的基因表达谱数据集被发布到网络上,从而为研究肿瘤特征基因选择和亚型分类提供了方便,其成为生物信息学领域的研究热点.然而,面对高维小样本的肿瘤基因表达谱数据,如何在成千上万个基因中有效地选出样本的分类特征是肿瘤基因表达谱分析中的难点问题.基于Lasso方法,提出了K-split Lasso特征选择方法,其基本思想是将数据集平均划分为K份,分别使用Lasso
在尽可能保留有用信息的前提下,实现高维数据的降维;有效实现粒度粗细之间的转换,获取不同层次的信息是非常有意义的研究.首先,利用偏最小二乘法,按相关性最大来提取最强解释能力的信息,实现高维数据的降维.其次,通过主成分信息聚类,获取不同层次的信息粒.最后,根据需求选择合适的粒度进行分析.实验表明,文中所提方法是可行有效的.
为了解决基于Rao-Blackwellized粒子滤波器的同时定位与地图创建算法需要大量的采样粒子,而且频繁重采样可能导致粒子耗尽的问题,提出了利用遗传优化的粒子滤波器算法.设计一种变异的遗传算法来兼顾粒子的权值和粒子集的多样性,取代原有的重采样步骤.在计算采样的提议分布时,考虑了里程计信息和距离传感器信息,并且通过遗传算法来维持粒子集的多样性,实验结果表明,所提出的基于遗传优化的粒子滤波器算法在
针对带有灵活通配符和长度约束的近似模式匹配问题(APMWL,Approximate Pattern Matching with Wildcards and Length constraint)进行研究,为避免文本字符重复使用造成解的指数级增长,引入一次性使用原则one_off条件,提出一种基于后向构造编辑距离矩阵的BAPM(Backward Approximate Pattern Matching
机器学习技术在现代各种数据分析中是备受人们关注的有效方法之一,目前已在众多领域得到广泛应用.于是以目前较为流行的决策树学习为重点,介绍了决策树学习的几个较为成熟的算法,并将相应算法应用到机械波图像分析中,提出了5点上下文决策树学习算法和7点上下文决策树学习算法等.通过实验验证该种处理方法是有意义的.
带有通配符的多序列模式挖掘在文本检索、网络安全、生物科学等领域中具有很重要的作用.通过挖掘多序列模式,能够透彻地了解序列之间的联系,这在各个领域中具有重要的现实意义.在已有的工作中,随着多序列集长度的增大,挖掘的规模呈现指数级增长.本文研究这样一个问题:给定多条序列s1,…,sn、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,并且要求模式中任意两个相邻元素在序
粗糙集理论中知识约简是数据挖掘应用中知识获取的重要步骤.经典的知识约简算法是一次性将小数据集装入内存中进行知识约简来提高约简算法效率,无法处理海量数据.通过深入剖析基于正区域的、基于差别矩阵的和基于信息熵的知识约简算法中的可并行化操作,提出了基于MapReduce的并行知识约简算法模型,并在Hadoop平台上进行了相关实验.实验结果表明该知识约简算法模型可以处理海量数据集.
数据的存储存在多源化,从多数据源中进行模式挖掘为不同层次决策提供服务是数据挖掘领域的一个研究热点.首先介绍了多数据源挖掘方法的研究进展;然后从数据源的聚类、多种模式的挖掘、局部模式的合成等方面进行了详细的阐述和分析,最后指出了多数据源挖掘的进一步研究方向.