【摘 要】
:
信息技术的快速发展使各行各业产生了大量有用或无用的数据,因此数据的挖掘与分类变得日益重要起来。面对爆炸性增长的数据,人们需要有效的方法来对其进行分析。K-近邻(K-Nearest Neighbor,KNN)算法是数据挖掘和模式识别领域最为经典的方法,已具有几十年的研究历史。该算法通过样本间的距离来确定近邻,同时仅调整近邻个数k这一参数即可获得分类结果,因而KNN算法具有简单易实现的特点,然而其分类
论文部分内容阅读
信息技术的快速发展使各行各业产生了大量有用或无用的数据,因此数据的挖掘与分类变得日益重要起来。面对爆炸性增长的数据,人们需要有效的方法来对其进行分析。K-近邻(K-Nearest Neighbor,KNN)算法是数据挖掘和模式识别领域最为经典的方法,已具有几十年的研究历史。该算法通过样本间的距离来确定近邻,同时仅调整近邻个数k这一参数即可获得分类结果,因而KNN算法具有简单易实现的特点,然而其分类性能容易受到噪声点和k值敏感性等问题的影响。协作表示(Collaborative Representation,CR)分类是一种较新的基于表示的分类方法。该算法使用所有训练样本线性协作表达测试样本,已被证实具有较好的分类性能。但当不同类训练样本比较相似时,该算法会导致有效的训练样本在分类过程中可能不占有主导地位,从而导致分类错误。本文基于协作表示和近邻分类的相关知识,进行了如下三个内容的研究:(1)基于协作表示系数的K-近邻分类(Collaborative Coeffificient-Based K-Nearest Neighbor Classifier,CCKNN)算法,CCKNN旨在改善k值选择敏感性问题,尤其在存在噪声点的小样本数据集上。CCKNN使用训练样本对应的协作表示系数来选择测试样本点的近邻样本,并且基于每类近邻域中近邻点所对应的协作表示系数值总和作为所提方法的分类决策。协作表示系数相比传统距离法求得的近邻,更能够反映样本间的相似性问题。通过在真实数据集以及人脸数据集上进行反复实验,验证了所提CCKNN算法的分类有效性。(2)基于局部多均值协作表示的K-近质心近邻分类(Multi-Local Means Collaborative Representation-Based K-Nearest Centroid Neighbor Classifier,LMRKNCN)算法,LMRKNCN旨在减少近邻域噪声点出现的概率和利用数据的空间分布信息,从而改善基于KNN算法中的k值选择敏感性问题。LMRKNCN首先求出k个近质心近邻的局部多均值,然后用k个近质心局部多均值协作表示测试样本,最后基于测试样本与协作表示后样本的残差来作为分类决策。使用近质心近邻求解局部多均值可以获得测试样本周围的几何分布信息和局部信息,另一方面,使用测试样本与协作表示后样本的残差作为分类决策函数,可以使不同的近质心局部均值对分类起到不同贡献。在真实数据集和图像数据集上的实验结果验证了所提LMRKNCN算法的有效性。(3)设计了基于协作表示的近邻图像分类原型系统。使用Python作为原型系统的开发环境,实现了本文所提两种算法与后端各模块的功能,前端界面采用HTML5语言,使原型系统界面简洁,有较强的人机交互性。在原型系统上的分类结果验证了所提算法的实用性。
其他文献
目的:对基因芯片分析筛选出来的在卵巢癌中具有差异表达的长链非编码RNA(Long non-coding RNAs,Lnc RNAs)进行生物信息学分析和功能研究,探讨其对卵巢癌细胞迁移和侵袭的影响及分子机制。方法:(1)生物信息学在线工具CRC(Coding Potential Caculator:http://cpc.cbi.pku.edu.cn/)分析Lnc RNA03882的不编码能力。(2
物联网是当前研究与开发的热点,但物联网系统由于要连接各类传感器,存在协议复杂、扩展性差和缺乏网络管理机制等问题,限制了物联网系统的应用。因此有必要研究和设计新型的物联网系统。首先,本文在分析当前物联网系统存在问题的基础上,针对振弦物联网,给出了面向SDN的高效异构振弦物联网系统结构,介绍了其中包含的主要模块。接着,针对当前物联网系统可扩展性差的问题,提出了振弦物联网的扩展机制,设计了基于自动扫描多
玉米秸秆较经济的处理方式是运用生物转化方法发酵处理,使之成为优质牛羊生物粗饲料,玉米秸秆中木质素难以降解直接影响了纤纤维素和半纤纤维素的降解和转化,是秸秆饲料化生产过程中最大的难点之一。自然界中的白腐真菌分泌的锰过氧化物酶(manganese peroxidase,Mn P)是一种高效的木质素降解酶,但白腐菌生长过慢,产Mn P需要诱导,如果直接用于发酵会增加时间和成本。目前,构建食品级重组菌有效
随着不可再生能源资源消耗的态势日趋紧张,研发新一代储能设备成为当今世界发展的主题。介于电池和传统电容器的超级电容器由于兼具较高的能量和功率密度成为一种新型的高效储能装置进入大众视野。依据储能机理不同,通常可将其分为两种类型:双电层电容器和赝电容电容器。超级电容器常用的电极材料主要有碳材料,过渡金属化合物和导电聚合物。虽然超级电容器在新型储能设备中具有诸多优势,但仍存在各种各样的局限性,从而降低了其
基于OECD"学习框架2030",采用文本分析法研制高中地理课程图谱,分析我国高中地理课程"人文地理"部分的情况。研究发现:我国高中地理课程"人文地理"部分与OECD"学习框架2030"能力框架和内容体系的对应度在50%左右;五大能力类型和六大内容主题都表现出部分得分高、部分得分低的分化特点。
2-酮基葡萄糖酸(2-ketogluconic acid,2KGA)是一种具有广泛用途的有机酸,目前主要作为合成食品抗氧化剂D-异抗坏血酸及其钠盐的前体。2KGA的工业生产通常采用发酵法,即利用假单胞菌(Pseudomonas)转化葡萄糖为2KGA的方法。高温胁迫下,假单胞菌的葡萄糖代谢由胞外氧化途径向胞内磷酸化途径偏转,从而导致发酵目的产物2KGA产量的明显降低。因此,假单胞菌耐高温菌株的选育在
光栅作为重要的衍射元件,在众多领域中有着重要的应用,其加工方法多种多样,然而缺点也很突出。超快激光由于具有超短脉冲、超高能量密度、非线性加工等特性,可以实现超精密空间三维微加工。相较于其他的加工方式,超快激光加工效率高、对环境友好、工艺简单、成本低廉、质量与精度高、可重复性高,因此使用超快激光制备光栅非常有必要。本文以单晶硅为材料,使用实验和模拟相结合的方法,对飞秒激光制备90°顶角的中阶梯光栅进
原花青素是由黄烷-3-醇或黄烷3,4-二醇缩合而成的一大类酚类聚合物的总称,具有抗氧化、免疫调节和抗肿瘤以及改善心血管功能等多种生物活性,广泛存在于水果和蔬菜中,是每日膳食均会摄入的生理活性物质。肉类蛋白质是膳食中不可缺少的营养要素。已有文献报道,膳食蛋白与多酚类物质一同摄入时,两者之间会发生相互作用,进而影响两者的功能特性。而现有文献多围绕单一多酚类物质与某一种单纯蛋白质之间的相互作用,甚少见多
热冲压成形技术可以有效克服传统冷冲压工艺带来的金属板料成形性差、回弹量大和模具使用寿命短等困难,但成形过程中高温和高应力使得板料与模具间的接触情况复杂多变,而接触表面的摩擦磨损行为会直接影响冲压件的成形质量和冲压模具的磨损情况。本文以无镀层、热镀锌(GI)、合金化热镀锌(GA)超高强钢B1500HS和模具钢H13为研究对象,从试验和有限元仿真两方面研究了超高强钢B1500HS热冲压成形过程中摩擦特
枸杞功能众多,是重要的药食同源植物,枸杞多糖是其主要活性成分。枸杞多糖在提取过程中需要对其中的大分子糖蛋白、色素以及不溶于醇的小分子有机物等多种杂质进行剔除纯化,层析脱色是高品质枸杞多糖生产的纯化操作,但是传统的层析技术存在着智能化水平低、分离效果差等不足。本文拟将近红外光谱技术应用到枸杞多糖柱层析脱色吸附过程的在线实时监控,借助酸碱顺序洗脱模式和超声波强化技术,改善枸杞多糖脱色脱附过程的脱附效果