非独立同分布下异构数据KNN算法研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:bianyuantuifei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘顾名思义就是从海量数据中挖掘出对于企业或者个人来说有用的信息,因为数据挖掘能够为企业创造出更大的利益,所以数据挖掘的相关算法与技术层出不穷,并且已经广泛应用到了许多领域,成为推动大数据发展不可或缺的动力。分类分析是数据挖掘算法中的经典算法之一,其中KNN算法因其原理简单易懂又易于实现等特点被广泛的应用到数据挖掘领域。但因其也存在一些缺陷,如训练样本不均衡问题、冗余特征等会对分类结果产生影响,故而众多学者对其提出改进。然而传统KNN算法及众多改进算法均基于独立同分布,而现实生活中的数据大多数是以非独立同分布的形式存在的,也就是说数据对象之间、数据对象的属性之间以及属性值之间都会存在一定的相互联系,这些相互联系如果被忽略则会错失一些重要信息,从而导致分类结果不准确。因此本文基于非独立同分布思想对KNN算法进行了相关改进。本文的主要研究工作包括以下三点:第一,针对数值型数据,为解决传统KNN算法中因为训练样本不均衡和易受单个属性影响导致分类结果不准确的问题,提出一种基于类隶属度和特征权重的CFW-KNN算法。该算法通过计算数据密度确定球中心点和半径建立最小包围球,并根据训练样本所处位置确定类隶属度,再通过Relief F算法思想进行特征权重的计算,最后根据训练样本的类隶属度和特征权重更新类别决策规则,从而确定待分类样本的类别。实验结果表明,CFW-KNN算法能够使分类结果更加准确,提高分类准确率。第二,针对数值型数据,在改进后的CFW-KNN算法中运用非独立同分布思想,通过对数据集中各类隐含关系的挖掘,提出一种非独立同分布下的NIID_CFW_KNN算法。该算法首先利用改进后的Pearson相关系数公式整合出数据对象的耦合相似度矩阵,将原始数据集转化为具有耦合关系的新数据集,并将新数据集应用于CFW-KNN算法进行分类分析。实验结果表明,NIID_CFW_KNN算法的分类准确率有进一步的提升。第三,针对异构型数据,在NIID_CFW_KNN算法的基础上运用非独立同分布思想对类别型数据和数值型数据进行全局耦合关系分析,提出一种非独立同分布下针对异构型数据的NIID_MCFW_KNN算法。该算法充分挖掘出存在于类别型数据内部、数值型数据内部以及类别型数据和数值型数据之间的耦合关系,并将具有耦合关系的新数据集应用于CFW-KNN算法进行分类分析。实验结果证明,NIID_MCFW_KNN算法对异构型数据具有较好的分类效果。
其他文献
心房颤动(Atrial Fibrillation,AF)在临床上表现为颤动或不规则的心跳(心律失常),是许多心脏异常的诱发因素之一,具有高致残率和高死亡率。因此,心房颤动的精准识别具有重要意义。目前所使用的房颤检测方法主要为基于波形特征和深度神经网络的检测方法。基于波形特征的方法存在手工提取困难,P波不易检测等问题,使得房颤检测准确率一般、效率低下。基于深度神经网络的方法与深度神经网络的层数之间具
由于实际系统大多数是非线性的,如何处理非线性系统一直是研究的热点。随着模糊理论的发展,模糊控制理论用来处理非线性系统受到诸多研究人员的青睐,如T-S模糊模型能于任意精度逼近一个光滑且有界的非线性函数,将非线性系统描述为一组局部线性模型的凸组合。对于模糊系统的控制综合已进行深入研究并取得重要成果,如控制器设计、H_∞控制等,大多集中于状态反馈,然而实际系统中一些状态很难被测量或者测量的成本很高,因此
本文针对如何更好的建模上下文进行了研究。在上下文的建模和利用中存在着一些问题,本文针对低质量上下文、模糊上下文和缺失上下文三个方面进行了提高上下文质量、模糊本体建模和补全缺失上下文的研究。然后分别将它们应用在了光伏发电预测、文献摘要、文献检索的领域。研究内容如下:研究内容1:对于低质量上下文,本文提出了一种新的方法来建立了高质量本体模型,该本体模型可提高上下文质量。该本体先将上下文按照其来源的不同
心血管病已经成为威胁人类生命健康的主要疾病之一。临床上,心血管病经常伴有心律失常现象发生。有些心律失常可能导致心脏病的症状,包括头晕、昏倒和呼吸急促,还有些类型的心律失常,如房颤和心室颤动,可能会引起中风和心脏骤停,因此及时准确检测心律失常是紧急且必要的。心电信号(ECG)作为一种表征心脏状况的生理信号,对心律失常的检测和诊断具有重要意义。但由于医学数据的特殊性,其标注成本高,许多数据标注的不完全
随着互联网的迅速普及,如何有效地组织、利用以及挖掘数据背后隐含的知识成为一种新的挑战。知识图谱描述了客观世界所存在的实体及语义关联等,并以图结构直观地呈现,为用户提供了结构化的知识,逐渐获得了学术界和工业界的普遍关注,因此如何构建一个知识图谱成为学者们研究的热点。同时多源异构的知识之间往往会存在重复、语义歧义多样、质量参差不齐等问题,要想构建一个高质量的知识图谱,知识融合是不可或缺的关键环节。实体
DNA序列中储存着大量复杂且有价值的生物信息,其中DNA序列的相似性分析可以发现生物之间的进化关系,从而更好地处理生物信息;DNA序列的模式匹配可以统计基因片段出现的位置和数目,有利于对致病基因进行状态跟踪和靶向治疗。但是大多数序列相似性分析和模式匹配方法都针对整个序列而不是频繁序列模式,这就加大了计算的复杂度;并且目前的研究方法均忽略了含缺失碱基的基因片段,即对于负序列模式,还没有统一的分析方法
人脸检测在生产生活中使用越来越广泛,人脸检测安全性问题逐渐成为社会关注要点。人脸攻击导致经济损失事件频频发生,攻击方式主要包括打印照片攻击、屏幕成像攻击、视频回放攻击和假体攻击等,因此在人脸识别中使用活体检测技术越来越重要。随着攻击方式越来越多,人脸活体检测面临越来越大的压力,现今主要使用的活体检测方式比较单一,在复杂环境下准确性和鲁棒性往往达不到要求。在保证模型检测性能基础上还需要考虑模型推理时
在软件的开发和维护过程中,每天会有大量的代码变更被提交到版本管理平台中,而阅读和理解代码的变更是软件开发过程的必要工作,人工的对于变更代码差异的识别也越来越困难。当今软件功能的需求越来越多样化,软件的体系结构也随之增大,如果能够对代码的变更进行自动差异比较分析,则能够将代码变更的差异从源代码中分离,有助于对代码变更的阅读和理解,同时有助于开发人员研究代码变更中相关问题,有利于理解软件演化的过程。当
目前,接入到物联网中的设备数量呈指数级增长,随着这些物联网设备的运行就会生成海量的数据。这些数据可能包含用户的隐私信息,例如家庭住址、年龄、患病史等,若这些数据被任意访问就容易出现隐私泄露问题。如何管理这些海量的数据,使得这些数据能被安全、高效的利用是我们所面临的一大挑战。访问控制技术是目前被广泛使用的安全保护技术之一,为物联网设备数据保护提供了有力支撑。然而,在利用访问控制确保数据能被合法使用的
随着网络技术和数字媒体的蓬勃发展,当今社会已然迈入信息时代,大量数字化产物在网络空间中存储和传输,如何保障数字资源的存储和传播成为社会广泛关注的问题。数字水印技术在众多安全技术中脱颖而出,在数字资源版权保护问题中展现出独特优势。近年来,鲁棒图像水印技术已取得长足进步,现有的鲁棒图像水印算法已能很好地抵抗常规图像处理攻击,但如何抵抗几何攻击和提高计算精度,依然是数字图像水印研究领域共同面临的难题。本