低时间复杂度的快速KNN算法研究及其应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:sweetmeimei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
KNN算法是一种非常经典的划分类别的算法,主要解决未知属性样本分类问题,算法在分类过程中,需要计算未知属性样本与每个已知属性样本的距离,因此在海量高维数据的应用中,传统KNN算法计算复杂度较高的缺点受到严重挑战,针对该缺点本文进行了研究。基于距离的离群数据检测算法是常用的离群数据检测算法之一,但该算法在海量高维数据面前计算复杂度较高,针对这个缺点本文也进行了研究。论文主要工作如下:第一,针对传统KNN算法在海量高维数据面前分类效率较低,提出低时间复杂度的快速KNN算法。该算法与传统KNN算法不同之处在于:首先,从未知属性样本集中任意选择一部分样本进行分类,然后,从剩余未知属性样本中任选一个样本,计算其与所有已分类样本的距离,最后,以距离其最近的已分类样本为圆心,以两者距离的两倍再加上最近已分类样本k近邻中距离最远样本的距离为半径,作超球体。超球体外的样本则无需与该待分类样本计算距离,从而减少计算量,达到降低计算复杂度的效果。实验结果显示,提出的算法分类效率更高。第二,将基于类重心的KNN算法与低时间复杂度的快速KNN算法相结合,得到基于类重心的快速KNN算法,该算法步骤与低时间复杂度的快速KNN算法基本一致,不同之处在于算法的k值全部取1,并用均值作为各个类的类重心,则待分类样本只需与类重心计算距离,其余步骤与低时间复杂度的快速KNN算法一致。实验结果显示,基于类重心的快速KNN算法的效率比传统基于类重心的KNN算法效率更高。第三,将传统基于距离的离群数据检测算法进行改进,提出基于距离的快速离群数据检测算法。传统算法需要计算待测样本与所有样本的距离,而提出的算法从第二个待测样本开始(第一个任意选择的样本,与传统算法计算方法一致),无需与其他所有样本计算距离,只需与以第一个已测样本为圆心,以待测样本与圆心的距离加上事先给定的邻域半径为半径的超球体内的样本计算距离。当待测样本与圆心的距离大于给定的邻域半径时,此时建立空心超球体,空心部分的半径是待测样本与圆心的距离减去给定的邻域半径,超球体外和空心部分的样本则无需与待测样本计算距离,从而达到降低算法计算复杂度的效果。实验结果显示提出的算法的检测效率比传统算法的检测效率更高。第四,利用低时间复杂度的快速KNN算法思想,提出一种低时间复杂度的快速KNN离群数据检测算法,该算法与传统基于距离的离群数据检测算法不同之处在于:传统算法是让检测样本的邻域半径都为d的情况下,用检测样本的邻居数量与给定的邻域参数ε进行比较,而提出的算法则是让检测样本邻居数量都为ε的情况下,用事先给定的邻域半径d与检测样本邻域内最远样本的距离进行比较,实验结果显示,提出的算法的检测效率比传统算法的检测效率更高。最后,总结了论文的研究内容,并提出研究领域的不足之处,以及可继续研究的方向。
其他文献
由于我国煤炭开采技术的飞速进步,矿井开采规模日益增大,导致了煤层开采深度越来越深。我国的地质条件十分复杂,这就使得巷道的支护问题越来越严重,此类问题在深部巷道中尤为突出。受高地应力的影响,仅仅通过加强支护强度的支护手段是不能有效的控制巷道围岩的变形。钻孔卸压技术可以有效减少巷道周围岩体弹性能的积聚,控制巷道围岩变形。本论文以8204工作面下顺槽为研究原型,通过对巷道的地质条件、围岩破坏特征以及观测
近些年来,随着经济改革不断地深化,我国农业产业化的快速推动、城镇化进程的日益加快,人多地少的土地供需矛盾进一步被放大。再加上我国长期存在的城乡二元体制的历史原因,传统乡村集聚的生产与生活方式迎来了巨大挑战。农业、农村、与农民这“三农”问题始终是国家高度关注的重要事项。聚焦到地方政府,如何提升农民的生产与生活水平更是一项被广泛提及的重要课题,被社会各界广泛关注与研究。宿城区农民集中居住工作始终坚持规
随着网络的发展,边缘侧的请求数量日益增长,对传统集中式网络系统造成了极大的服务压力,已经逐渐无法适应新的需求。边缘计算通过将请求的处理过程放到离用户最近的地方进行,并利用自组织网络延伸并提升边缘侧的网络覆盖与服务能力。但该网络中节点存在不良行为,网络不可信,而且服务组合过程存在忽视网络层细节的问题,造成效率低下。为此,本文将针对边缘延伸网络的网络路由可信问题和服务高效组合问题,展开路由可信和服务组
基因是具有遗传效应的DNA片段,基因支持着生命的基本构造和性能。研究发现,很多疾病的产生是由于基因的突变造成的。因此,基于基因表达数据的疾病诊断研究成为生物医学上的一个重要课题。基因表达数据具有高纬度、小样本的特点,在数据预处理过程中需要进行特征选择。特征选择不仅能够有效的降低数据维度,减少后续的工作量,更能够帮助我们识别重要的特征,减少噪声对数据集的影响。因此,本文针对基因表达数据,在特征选择及
李光耀作为新加坡的国家领导人,在新中建交过程中发挥着非常重要的作用。本文结合文献、历史和案例三种研究方法,依据玛格丽特G?赫尔曼的人格类型理论,研究从领导人对外部信息的态度、与环境限制的关系、领导人的决策过程和政治动机四个主要干预变量出发,以领导人对外事领域的兴趣、在外交事务方面的专业训练和经验组成的两个次要干预变量,分析李光耀人格类型与人格特征,进而展开李光耀的人格特征对新中建交的具体影响研究。
随着信息科技、互联网技术的迅速发展,带动了各个领域的网络化发展,其中,金融业出现了网络借贷、大数据金融、第三方平台支付等多种新型互联网金融模式。在众多互联网金融的
研究目的:应用氢质子磁共振波谱,对正常成年人背侧丘脑代谢物的相对含量及比值进行计算,分析年龄、性别、侧别对各代谢物的影响,测算各代谢物含量参考范围。研究方法:对120例
随着科学技术的进步,军事和民用方面需求的日益增长,海洋资源的开发利用成为了各国竞争的焦点。导航信息是船舶航行及海洋开发作业顺利完成的重要支撑和保障。电子海图能够实时动态显示基于海图背景的导航信息并能辅助航海人员高效的完成各类作业任务,相关技术得到了广泛应用。然而当前电子海图仅能提供基本的二维航行信息,对于三维海底地形及海洋环境等信息不能够形象地描述,依然需要航海人员人为处理各种设备所接收的诸多数据
断层带附近地质条件极为复杂,具有软弱、破碎等特点。由于断层破坏了岩层的连续性,附近应力分布十分异常,特别是进入多断层或断层群区域,受断层相互作用的影响,极易引起动力灾害事故,对煤矿的安全生产产生重大影响。本文通过理论分析、UDEC和FLAC3D软件建立两断层不同间距的数值模型,改变工作面开采顺序,对上、下盘工作面分别过多断层区域时的覆岩结构演化规律及采动应力分布特征进行了研究,并通过现场工程实例进
改革开放以来我国社会经济快速发展、日益腾飞,商业模式也随之不断更新转变,商标本身彰显的经济价值和其在社会中形成的附加价值越来越显著,对商标形成完备的保护体制迫在眉睫。商标不单单是由文字、图形组合而成的简单标志,对消费者来说,商标是带给其心理认可和信赖选择的重要区别标志,对企业而言,商标凝聚着其沉淀多年的独特企业文化和艰辛累积的宝贵商业信誉。基于此,我国设立了《商标法》等相关法律对商标进行保护。但是