基于空间几何形态的数据分类研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:cynthia0737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是数据挖掘技术中的基础和重点,大数据的到来伴随着数据量和数据维数的不断增加,这导致了传统的数据分类技术产生巨大的局限性。要精准快速进行数据分类需要多种数据处理技术相互补充,本文通过将数据分类分为数据预处理、临界特征检测、数据分类以及对比验证四个部分进行。针对数据预处理,由于高维数据降维能有效防止维数灾难,避免噪声以及将数据可视化。通过简单分析对比常见的数据可视化方法的基本思想和应用,针对小麦种子数据本文选择主成分分析法对数据进行预处理,并且得到球形检验值为0.788,P值为0,解释的总方差达到88.982%,由此可将数据降为2维。针对临界特征检测,由于传统数据分类方法大都从而都忽略了数据集在空间所呈现的几何形态。因此本文从数据集在空间呈现的凹凸形态入手分析建立构成两种几何体的临界点集的特征条件。在此基础上,将几何体之间的空间关系分为有重叠区域和没有重叠区域,结合贝叶斯概率进行临界点检测。在实证部分,本文通过利用降维后的训练样本进行临界点检测,并在重叠区域提取了8个临界点,在非重叠区域提取了13个临界点。针对数据分类,本文通过统计学上数据分类的基础理论引申出利用支持向量机通过寻求结构风险最小化来实现经验风险和置信范围最小化,还能提高学习机的泛化能力。同时,本文通过分析最大间隔分类法推导出支持向量机分类算法。由于支持向量机分类算法涉及核函数等多个参数,本文在实证部分通过分析高斯核函数参数g2、支持向量平衡参数C以及测试样本分类正确率P的动态空间关系,由此找到最佳参数组合区域,并取参数组合g2=20.30303,C=29.3939,由此对测试数据进行分类。针对对比验证,由于支持向量机分类算法本身具有特征提取的特点,为验证临界特征点提取的必要性,本文通过将特征提取之后的数据作为实验组,将未进行特征提取的数据作为对比组,分别从分类准确率和算法运行时间两个角度进行对比分析。由此得到实验组分类准确率为95%,算法运行时间为3.390s;对比组分类准确率为85%,算法运行时间为4.130s。由此可知通过空间几何形态提取特征数据不仅能快速准确获取关键信息,提高准确率,而且对数据分类起着关键性作用。
其他文献
化学反应网络理论是关于化学反应网络的数学理论。对于一个化学反应来说,其反应速率与动力学有关,最常见的动力学是质量作用动力学。化学反应网络在质量作用动力学下构成质量作
  本文主要研究一类自相似测度的奇异性与可乘序列的结构及关联维数。除绪论外,论文还有三个独立的章节。  自相似测度的研究可以追溯到上个世纪30年代,随着研究的深入,人们
模的投射(平坦)预包问题已经被很多人研究过([2],[3],[4],[7],[8],[10],[11],[12],[13],[14])。本文第一章给出了n-投射模的一些性质。证明了n-投射模的直和项,任意直和仍是n-投射的,且n-投射模类是扩张封闭的。
本文通过对荣华二采区10
欧氏空间的多分辨分析,cascade算法以及细分函数在小波分析中占有非常重要的地位.本文主要是把欧氏空间的这三部分理论推广到Heisenberg群上.具体包括:首先研究了在Heisenberg
网络安全问题已经成为信息时代人类共同面临的挑战,人们为了保护网络的安全采取了各种各样的方法,而防火墙正是解决网络安全的一种主要方法之一,并与防病毒木马、入侵检测等安全
本文通过对荣华二采区10
期刊
  本文通过估计Laplace渐近积分,得到了回归系数最小二乘估计的中偏差.根据对随机误差的不同假定又分三节进行了讨论.不仅给出了随机误差为取值于Rd的相互独立同分布情形下
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
  单纯形算法和内点算法是线性规划的经典算法,虽然线性规划单纯形算法在实际应用中是一种高效的方法,然而在理论上它并不是多项式算法,因而吸引了无数学者去试图设计线性规划