基于近邻关系的稀有类挖掘

来源 :浙江大学 | 被引量 : 0次 | 上传用户：qq414363439

【摘要】

：

在现实生活中,我们常常会要处理一些不平衡的数据集,其中主要类的数据样本占据了数据集的绝大多数,而稀有类只拥有极少数的数据样本。与主要类相比,数据集中的稀有类在许多情

【作者】

：

黄浩

【出处】

：

浙江大学

【发表日期】

：

2012年期

【关键词】

：

稀有类检测稀有类勘探近邻关系反向k近邻互k近邻 k近邻图先验知识

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在现实生活中,我们常常会要处理一些不平衡的数据集,其中主要类的数据样本占据了数据集的绝大多数,而稀有类只拥有极少数的数据样本。与主要类相比,数据集中的稀有类在许多情况下往往是我们最为感兴趣的。例如,在网络入侵检测中,虽然绝大多数的网络访问都属于正常访问,但是也有少数访问属于我们需要关注的恶意攻击行为；在金融安全中,虽然绝大多数的金融交易都是合法的,但是也有少量交易属于危害极大的违法操作。因此,如何挖掘出这些数据集中的稀有类具有较高的研究价值与现实意义。在现有文献中,稀有类挖掘的任务分为两大类,即(1)为每个稀有类发现至少一个数据样本,以证明该稀有类的存在；(2)为每个稀有类找出全部的数据样本,以更好地理解该稀有类的性质。其中,第一类任务通常被称作“稀有类检测”,又可进一步分为“基于先验知识的稀有类检测”和“无先验知识的稀有类检测”；而第二类任务包括“稀有类分类”、“稀有类聚类”、以及本文提出的“稀有类勘探”。本文围绕稀有类挖掘的两大任务,分别研究了基于先验知识的稀有类检测问题、无先验知识的稀有类检测问题,并首次提出了“稀有类勘探”的研究问题,给出了相应的挖掘算法。本文的主要贡献有：(1)针对基于先验知识的稀有类检测问题,提出了首个具有密度不敏感特性的稀有类检测算法,即RADAR算法。该算法通过利用数据样本之问的反向k近邻关系来发现稀有类的边界点,从而达到发现稀有类数据样本的目的。大量实验证明,与现有方法相比,RADAR算法受稀有类密度的影响极小,更适合于处理包含多密度稀有类的数据集。另外,提出了RADAR算法改进版本,即CATION算法。该算法通过考察稀有类边界附近数据样本的反向k近邻个数上的变化,重新设计了选取稀有类边界点的方法,以帮助用户选取那些更为靠近稀有类内部的稀有类边界点,从而进一步提高发现稀有类数据样本的概率。大量实验证明,CATION算法的稀有类检测性能明显优于现有算法。(2)针对无先验知识的稀有类检测问题,鉴于现有方法的时间复杂度普遍偏高,提出了一种快速的解决方案,即CLOVER算法。该算法通过利用数据样本之间的互k近邻关系,将稀有类的数据样本与其他类型的数据样本区分开来。大量实验证明,相较现有方法,CLOVER算法有效地减少了运行时间,且在稀有类检测性能上具有明显优势。(3)针对稀有类挖掘的第二大任务,即找出每个稀有类的全体数据样本,鉴于现有的稀有类分类与稀有类聚类技术在应用时的制约与局限,本文首次提出“稀有类勘探”(Rare Category Exploration)这一新问题,即在给定一个已发现稀有类数据样本的基础上,如何准确找出该稀有类余下的数据样本。稀有类勘探的提出使得稀有类挖掘的两大任务之问形成了连续的应用场景,即稀有类检测帮助用户发现一个稀有类数据样本后,再由稀有类勘探来完成寻找该稀有类余下数据样本的工作。(4)针对稀有类勘探问题,本文提出了一种简单而性能优良的解决方案,即FRANK算法。该算法通过在给定的数据集上构造k近邻图,将稀有类勘探问题转化为从一个起始顶点出发、寻找目标稀有类在k近邻图中所对应的局部社区(Local Community)的问题,并采用一种贪心策略来完成局部社区检测。大量实验证明,与现有的稀有类分类与稀有类聚类算法相比,FRANK算法在寻找目标稀有类的数据样本时具有明显更高的查全率和查准率。

其他文献

产业知识结构化过程分析

以往经济管理类文献多注重从细织或国家层面对知识管理进行研究，而产业层面的相关研究鲜有提及。基于此，本文首先对产业知识的概念进行了界定。然后再根据产业知识运动的特点，分

期刊

产业知识结构化过程产业竞争力

地勘单位文书档案数字化的建设分析

本文着手于地勘单位文书档案管理的重要性，结合我国现阶段地勘单位文书档案管理过程中存在的问题情况进行分析，总结出地勘单位文书档案数字化建设的具体措施，为我国今后的地勘单

期刊

地勘单位档案管理数字化建设

基于皮肤镜图像的皮肤病变检测方法研究

恶性黑素瘤(MM)是一种罕见且发病率正在不断增加的皮肤癌症。仅在美国,2010年与MM有关的新病例和死亡数量就分别是68130和8700。近年来的数字皮肤镜揭示了皮肤色素性病变临床

学位

计算机辅助检测皮肤癌数字皮肤镜分割图像增强模式识别CIECAM02色貌模型

浅析学校档案统计工作的意义和要求

档案统计工作是指以档案工作中大量的现象为对象、以表册数字的形式揭示档案和档案工作中各种现象的现状、发展规律及一般规律性的工作。做好这项工作，对了解档案工作现状，预测

期刊

学校档案统计工作意义要求

止消通脉宁对糖尿病小鼠肾组织TGF-β1、CTGF、BMP7和基因表达的影响

目的观察止消通脉宁对自发性2型糖尿病KKAy小鼠肾组织转化生长因子β1(TGF-β1)、结缔组织生长因子(CTGF)和骨形成蛋白7(BMP7)和基因表达的影响。方法将16周龄SPF级KKAy小鼠5

期刊

止消通脉宁糖尿病肾病转化生长因子结缔组织生长因子骨形成蛋白

几种特殊贸易方式下的退（免）税的税务处理

我国实行的新的企业出口退（免）税的政策对我国对外贸易的发展正产生着较大的影响，出口退（免）税的税务处理问题在实务操作过程中较为复杂和繁琐，特别是和具体特殊的贸易方式相结合。

期刊

进料加工来料加工出口退税贸易

客体分子对金属有机骨架材料储氢性能的影响

以Zn（NO3）2·6H2O和1,4-对苯二甲酸作反应物质,N,N-二甲基甲酰胺作反应溶剂,三乙胺为去离子剂合成了一种金属有机骨架材料（MOF-5）。详细考察了合成条件,并对样品进行了XRD、I

期刊

金属有机骨架合成客体储氢metal organic framework synthesis guests hydrogen storage

粤北地区架空线路自然覆冰形态现场观测研究

现场观测了粤北地区典型输电线路的覆冰情况，对杆塔的覆冰厚度、冰凌长度及数量、冰密度进行测量，研究了导线和绝缘子的覆冰形态及其与杆塔高度、绝缘子电场电位、绝缘子悬挂方

期刊

输电线路杆塔导线绝缘子自然覆冰现场观测

结合课程教学培养研究生创新研究能力的探索与实践

本文以“化学研究中的物理方法”课堂为例介绍了如何利用课堂教学来培养研究生创新研究能力。认为要做到以下几点:教学内容设计新颖,适合创新教学;教学方式要采取多个老师上

期刊

创新研究研究生课堂教学innovative researchgraduate studentsclassroomteaching

供电企业人力资源现状与员工培训管理方案

随着我国经济的快速发展,供电企业也面临巨大的挑战。在我国激烈的市场竞争态势下,供电企业怎样增强市场竞争力,提高经济效益,促使企业健康持续发展,是现阶段的主要目标。为

期刊

员工培训管理供电企业人力资源管理水平人力资源部门人力资源现状

基于近邻关系的稀有类挖掘

其他学术论文