基于数据场和云模型的维数约简方法研究

来源 :武汉大学 | 被引量 : 2次 | 上传用户:beilei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着硬件设备和网络的发展,数据量和数据维数都以极快的速度增加。大多数模式识别算法在遇到高维数据时,运算的时间复杂度呈指数升高,但是识别效果反而变差。如何对高维数据进行维数约简,提取出更具识别度的特征,以提高或保持模式识别的准确度,已经成为一个热门的研究方向。维数约简算法旨在通过对原始特征的评估或者变换形成新特征空间,减少冗余特征对于模式识别的影响。现有的维数约简算法针对特征本身的不确定性、随机性以及多尺度特征的内在分布规律研究较少。有必要积极地提出新技术学习数据隐含的信息,描述数据内在分布规律,并且提取出更能反映数据本质的特征。鉴于此,论文引入认知物理学方法,通过数据本身的分布状态衡量特征重要性程度,尝试在多尺度视角下提取数据特征,约简特征的数目;并且应用提出的算法解决实际问题。采用认知物理学中的数据场和云模型理论,从不同角度探索数据的内在联系,提取相关的空间特征,揭示数据的蕴含信息。其中数据场用来探索特征本身的重要性程度以及不同特征之间的相关性。数据对象受其它对象影响而使得特征描述具有一定的不确定性。数据场中的质量、影响因子、势函数这些关键因素的分析有助于解决维数约简中特征的重要性度量、样本间距离的度量和样本局部映射的获得。云模型是不确定性研究的重要模型,可以实现定量数据和定性概念之间的相互转化。论文利用云模型构建出了点和概念两个层次的特征提取策略。丰富了认知物理学的应用范围,针对维数约简的若干应用问题,全面分析了数据场的质量、距离、影响因子等关键要素,深入研究数据场的各向异性、云模型的不确定度等关键技术在维数约简中的作用。论文从特征提取、特征重要性度量、特征子集选择和特征表示四个方面进行基于数据场和云模型的维数约简方法研究,论文的主要工作如下:(1)势函数影响因子σ体现特征的各向异性,需要密度估计进行计算,但是密度估计的时间复杂度较高。同时计算类间距离和类内距离时需要遍历整个数据集。对于一些分类器,更应该关注样本的临近数据分布状态而不是整个数据集。例如对于SVM类的分类器,在超平面附近的样本相对于其他样本更为重要。为此,论文引入最大间隔思想,提出K临近局部最大间隔特征提取算法(KLMM)。该算法通过影响因子σ体现特征的各向异性。将这种策略和最大间隔标准相结合,在广义数据场中进行最大间隔结构学习。将KLMM和SVM算法结合,在通用数据集上取得了比ALH更高的分类精度。(2)现有的特征重要性度量算法对于数据的物理分布和数据点之间的空间分布关系研究较少。为此,提出基于势熵的特征重要性度量算法(FRGDF)。FRGDF在度量特征重要性时除了考虑数据本身分布之外,还在将数据场扩展到广义的多维数据场基础上,将数据映射到高维空间,使其更具可分性,使用层次聚类算法得到最优特征子集。在通用数据集上的相关实验和分析证明FRGDF算法可有效剔除不重要或噪声特征。采用FRGDF得到的最优特征子集和多种分类器相结合都保持或提高了分类器的精度,表明FRGDF算法独立于具体的分类器。(3)在数据场框架下,样本质量m是计算数据点势值的重要参数。实际上样本的质量和其周围样本密度和类别都有关系。同时特征子集的选择不仅要考虑特征本身分布状态,还要考虑和其他特征以及类别的相关性。为此,提出基于数据场和互信息的特征子集选择算法(DFMIFS).在将数据转换到数据场中的同时,将数据投影到网格中计算;引入互信息理论,计算候特征和已选特征的相关性,只有那些弱相关的特征才被加入特征子集中。采用启发式评估算法选取最优特征子集,实验证明,DFMIFS可在提取比FRGDF更少特征的基础上,进一步提高或保持分类器的精度。(4)现有的维数约简算法缺乏对特征在不同尺度下不确定性的统一描述,同时对于定量特征点和定性概念之间的转换研究不足。为此,引入认知物理学中的云模型思想,进行特征在不同尺度上的不确定性研究;提出基于合成云模型的特征提取算法(FECCM)。并以图像边缘特征提取为例,分析了特征在微观和宏观上的不确定性问题。微观上,将云模型和Canny算子相互结合,提取出图像的像素级数字特征。传统的Canny算子需要手动设置双阈值,FECCM可以自动选择阂值。以在FG-NET数据库的人脸年龄识别为例,进一步表明FECCM的有效性。FECCM将图像的特征识别问题转换为知识概念提取的过程,有效的利用已检测的图像,通过不同尺度特征的表示和提取,解决了特征的不确定性描述问题,体现特征的随机性和模糊性。通过不同尺度的训练样本得到不同尺度样本的分布情况,抽取相应的共性概念云,计算出不同概念云的数字特征,边缘的提取结果在噪声点消除和边缘清晰度上都表现出色。综上所述,论文通过数据场中样本的势值表示样本分布状态及样本间的相互影响,使用场空间反映数据对象的空间关系特征。为了进一步表示特征在空间分布中的模糊性和随机性,引入云模型表示数据对象分布在不同尺度的多种状态,使提取的特征更具普适性。将认知物理学方法和具体的维数约简策略相互结合,使得认知物理学方法研究更加深入,同时为维数约简提供了新的参考模型。
其他文献
《物流信息技术》是广州电大物流管理专科的核心课程,在网络课程建设方面取得了一定的成果。本文从供应链视角出发,论述了《物流信息技术》网络课程资源建设的理念,资源设计的4c
作为构建虚拟世界的基石,三维模型是VR时代下数字化设计的重要对象。计算机辅助建模研究的核心任务就是让设计师的工作更加高效,设计结果更加出色。为了追逐这个目标,三维建
间充质干细胞(mesenchymal stem cells,MSC)广泛存在于机体的各种组织器官中,例如骨髓、脂肪、羊膜、脐带等。最初MSC是在骨髓中被发现的,因此骨髓间充质干细胞(bone marrow mes
<正>缺氧诱导的有丝分裂因子(hypoxia-induced mitogenic factor,HIMF)又称抵抗素样分子-α(resistin-like molecule alpha,RFLM-α)或FIZZ1(found in inflammatory zone 1)
目的 分析微创经皮肾镜钬激光碎石取石术治疗肾结石的临床疗效和预后情况。方法 选取我院2014年4月—2017年4月收治的肾结石患者80例,按照治疗方案的不同分成2组,对照组采用
根据贵州省天柱县贡溪向斜重晶石矿整装勘查查明的重晶石矿产资源产出、分布、成矿地质条件及矿产资源分布规律,矿产资源潜力,控矿地质条件及地质构造特征,重晶石矿资源赋存
在当今世界政治、经济、文化都在发生着深刻变革的情况下,我国的高校教育改革也在不断深入推进。面对当前形势,高校学生管理工作还不能够适应,而传统的学生管理工作的方式、