基于EP模式的高维数据分类算法研究

被引量 : 0次 | 上传用户:michaelgang1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息采集技术和数据处理能力的迅速发展和广泛应用,众多领域如科学研究、生物医学、网络通信、商业等出现了大量高维数据,因而对高维数据进行分类成为数据挖掘领域的研究热点。由于“维度效应”的原因,许多在低维数据空间中表现良好的分类方法,运用于高维数据集时,因过高的计算复杂度等因素导致分类效果不理想,因此,构建面向高维数据集的有效分类算法成为数据挖掘领域的重点和难点问题。本文针对高维数据分类问题进行了以下研究:(1)讨论高维数据及其分类方法,并分析了传统分类方法及其在面向高维数据分类算法的不足。(2)引入了一种适用于高维数据的EP模式分类算法,详细介绍了EP模式,挖掘方法及分类器。在此基础上概述了EP模式分类器的性能,探讨了EP模式分类器应用在高维数据上会产生过多的EP模式的问题及对分类精度的影响。(3)针对EP模式分类器应用在高维数据分类时,因存在冗余及无关特征而导致产生大量冗余及无关EP模式这一问题,将特征选择方法融入于EP模式分类算法中,通过特征选择去除高维数据中的冗余及无关特征,从而去除EP模式中的冗余及无关EP模式,由此而提出两种分别适用于连续型数据及离散型数据的分类算法,即基于Lasso的EP模式分类算法和基于因果关系的EP模式分类算法(其中,Lasso是一种基于线性统计回归模型的特征选择方法)。(4)针对基于线性回归的lasso特征选择应用于超高维数据时可能会出现计算量过大及过拟合问题,提出两种改进的lasso特征选择方法:ILasso特征选择及ELasso特征选择。实验表明了所提算法的有效性。
其他文献
以计算机为代表的新技术使人类对信息的感知进入了一个多维时代,同时人类的认知方式也不断发生着变化。虚拟现实正是人类参与空间多维信息处理和交互的新技术,三维全景技术是
随着国内外汽车保有量的不断上升,车载导航仪市场面临着前所未有的广阔前景。然而目前国内的车载导航仪却普遍存在着软件界面难以操作的问题,在其使用过程中增加了用户的操作失
2008年北京残疾人奥运会后轮椅篮球在我国发展迅速,但国内各个队伍发展水平参差不齐,即使是国内高水平队伍与世界领先水平相比,我国轮椅篮球仍有一定的差距。笔者阅读相关文献及
小鹅瘟又称鹅细小病毒病(Goose Parvovirus, GPV)是雏鹅烈性传染病,主要侵害4~20日龄雏鹅和雏番鸭,该病的特点是传播快、致死率和发病率高,随着雏鹅日龄增长发病率和致死率下
本课题研究的目的是能够在六西格玛理论的基础上,联系本公司的实际情况,将本集团公司下属某合资工厂的一个实际事例,应用六西格玛知识,进行系统的分析、挖掘、整理、并有效地加以
供应链协调可以使供应链获得整体效益最大,但是由不同利益实体组成的供应链成员在信息共享中会隐藏自己的私人信息以维护收益,因此不对称信息在供应链协调和契约制订中广泛存
为进一步考察小学高年级学生的情绪智力和人际关系的发展特点,以及小学高年级学生的情绪智力和人际关系的关系,本研究以广州市华阳小学和广州市番禺区洛浦东乡小学两小学高年级
生产计划是关于一个生产型企业从早期合同洽谈、订单签订、技术确认、物料采购、仓库领料、生产执行、质量检验、包装发货以及财务分析等所有运营环节紧密相关的总体计划;是企
人工湿地是新兴的污水处理技术,而填料基质筛选是人工湿地污水处理的关键问题之一。本研究通过构建垂直流人工湿地实验系统,考查了多种填料基质的物理化学性质以及接种微生物前
讨论Orlicz-Bochner序列空间的(K)性质,利用生成函数M及Orlicz-Bochner序列空间的性质,并在假设Banach空间X具有Schur性质的前提下,得到Orlicz-Bochner序列空间具有(K)性质的