基于无监督和半监督学习的离群点检测算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:jack1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据挖掘技术的日益成熟和离群点检测研究的持续深入,离群点检测研究已经在欺诈行为识别、网络恶意入侵检测和医疗健康检测等多个领域得到了广泛的应用。离群点检测技术虽然在理论研究和应用系统构建方面已经取得了很大进步,但是在无监督和半监督离群点检测中,仍存在算法对数据的适应性差和对数据信息利用不足等问题,还需开展深入研究。基于上述背景,本文针对无监督和半监督离群点检测中的问题,开展了以下研究工作:(1)针对传统无监督离群点检测算法对数据适应性差的问题,本文提出了一种基于核密度波动的无监督离群点检测算法。该算法运用核密度波动特征代替密度特征来识别离群点,可以更好地检测低密度模式下的离群点。在该算法中定义了核密度波动因子来表达数据点的离群度,核密度波动因子越大的数据点越可能是离群点。这一概念综合考虑了局部特征和全局特征,增强了对数据特征的表达能力,有效提高了无监督离群点检测算法的检测性能和稳定性。(2)针对半监督离群点检测中标记数据存在的标签噪声问题,本文提出了基于代价敏感学习的标签噪声过滤算法。该算法充分考虑了不同类别标签错误标记的损失和样本重要性差异,应用代价敏感学习理论和贝叶斯决策理论完成了基于最小风险损失原则的标签噪声过滤任务,提高了标签噪声过滤算法在离群点检测任务中的适用性。(3)针对含有标签噪声的标记数据和大量无标签数据的半监督离群点检测问题,本文提出了一种半监督离群点检测算法。该算法包括标签噪声检测过滤、异常评分计算和离群点识别三个过程。该算法细化了离群点类别,高效地挖掘了标记数据和无标签数据中的信息,提升了离群点检测算法在此种类型数据中的检测效率和稳定性。本文提出的算法可以作为解决半监督离群点检测问题的一般性方法。
其他文献
移动互联网和Web 2.0造就了空间众包(Spatial Crowdsourcing,SC)这种借助网民群体解决实际问题的商务模式。任务匹配或工人选择是SC的一个核心问题,当前研究大多将目标聚焦于最大化匹配数目(MTA)与最大化匹配分数(MSA),但MTA方法忽略了任务属性的差异,MSA方法也没有考虑同一工人之于不同任务的完成质量差异。本文首先对SC的背景意义、SC任务匹配的概念模型和通用框架以及
学位
以去中心化方式运行长达五年的比特币系统,因其令人惊叹的稳定性,在2014年被发掘出其背后的关键技术——区块链(Blockchain)。区块链技术的可靠性和创新性,在互联网的高效信息交换之后,实现了价值传递,为更高效率信用社会的建立提供了新的技术支撑。随着央行数字货币、溯源等应用的迅速开展,由传统技术实现的区块链早期技术远不能满足实际的应用需求,区块链核心技术亟待创新与突破。其中以公链的吞吐量大幅提
学位
知识图谱是一种语义化知识库,其中实体被表示成节点,关系则由边表示。一个典型的知识图谱通常将知识描述为多关系数据,并以三元组(头实体,关系,尾实体)的形式表示。虽然知识图谱存在大量的实体和事实数据,但是许多大规模知识库仍不完整,并且缺少大量的真实三元组。针对大型知识库中常见的事实三元组缺失问题,研究学者提出很多知识图谱补全模型。本文主要研究知识图谱补全技术,通过对国内外相关知识图谱补全工作的全面考察
学位
特征选择技术是数据预处理步骤中最重要的操作之一,它可以提高数据分析中聚类、分类和信息检索等任务效率。现如今大数据时代的到来,各个领域的数据信息呈喷发式增长,导致越来越多高维的数据集出现。此时,数据预处理过程中利用特征选择去除与后续算法不相关的特征或冗余特征就显得尤为重要。有监督和半监督的特征选择方法的研究往往依赖样本的类别信息,而现实环境中数据的类别信息获取通常很困难。因此,不需要依赖标签信息的无
学位
作为分类算法之一的k-近邻分类算法,它凭借自身的简单性和有效性被广泛应用到现实生活中。然而现实生活中的真实数据集都不可避免地包含噪声数据,这个情况会损害k-近邻分类算法的分类性能。同样的问题也出现在模糊粗糙集理论中,模糊粗糙集在计算模糊下近似时需要查找测试样本的唯一最近邻样本,这个步骤使模糊粗糙集的模糊下近似值受数据集中噪声样本的影响,并且对后续的特征选择起到负面的作用。本篇论文首先在k-近邻分类
学位
现阶段,数据的获取方式简单且多样化,在提升模型效果的同时也产生了高维数据易存在噪声样本的问题。进而使得特征选择任务和构造具有鲁棒性的分类模型成为目前的研究热点。其中,模糊粗糙集理论作为特征选择和分类模型的理论基础,已经构造出了相应的模型。传统方法由于利用单一样本间的模糊相似关系来构造模型,使得建模过程中忽略了全局的关系,并且模型存在着对噪声敏感的问题。最终影响了模糊粗糙特征选择及相关分类模型的性能
学位
全媒体时代网络新技术的发展和应用,促进了新媒体技术与高校法治教育的深度融合,客观上推动了高校法治教育模式的变革。全媒体时代高校法治教育蕴含着拓展法治教育载体、改革法治教育模式、丰富法治教育方法和加强主客体间对话等价值,通过探索实现“媒介技术+法治教育”的模式转化,要在加强社会主义核心价值观的价值引领、完善协同育人体制机制和提升教育主客体媒介素养等方面推进具体实践,加强高校法治教育立德树人的质效。
期刊
分类任务作为机器学习中的重要课题之一,在许多方面已经得到了广泛应用。基于数据引力的分类方法由于模型简单高效而愈发受到关注,而大多数基于数据引力的分类方法在训练时通常不考虑数据特征的质量,平等的利用所有数据进行训练,因此影响了模型的训练结果。另外这些方法大都采用的是整体累加求和的计算方式进行分类,这种做法可能会导致样本间的冗余表达和信息丢失而导致误分类。为了解决这些问题,本文首先提出了一种以不一致性
学位
模糊推理已成功应用于多个领域,包括模糊专家系统,模糊决策分析,模糊模式识别等。在模糊推理系统中,当模糊规则库密集时,即规则的前件完全覆盖输入论域时,传统的模糊推理方法(即合成推理)可以获得相应的结论。当模糊规则库中包含“空隙”,即在稀疏规则库条件下,给定的观察值不与规则库中的任何规则前件部分重叠,采用合成推理方法无法匹配任何的规则,并且不能得出任何结论。在这种情况下,利用模糊规则插值法可以实现模糊
学位
图像生成是机器学习领域的一项研究任务,其目标是学习数据潜在分布,从而产生能够以假乱真的高质量图像样本。目前研究者们提出了很多生成模型应用于图像生成任务,并且已取得一定效果。但是,如何生成高质量的数据样本仍然是计算机领域不断追求的目标。目前,有关图像生成方法主要存在以下两个难点:一方面,生成图像样本模式单一,无法完全覆盖训练图像样本的所有模式,即出现模式损失问题;另一方面,由于模型设计本身存在固有的
学位