基于加权网络图聚类和子空间集成的高维数据分类

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liongliong514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是模式识别和机器学习领域中一种常用的数据预处理技术。近年来,科学技术的快速发展导致数据维度急剧增加,不相关和冗余特征的存在使特征选择在效率和性能上受到前所未有的挑战。在保持分类性能的基础上如何改善特征选择的稳定性和鲁棒性,仍旧是一个亟待解决的问题。为有效剔除不相关和冗余特征,降低时间复杂度,提升分类性能,本文提出一种基于加权网络图聚类的特征选择方法,同时结合基分类器的分类精度和差异性进行特征子空间集成,旨在提高方法的稳定性和鲁棒性,使其能够更好地对高维数据分类。本文的主要研究工作如下:1.为有效地剔除高维数据中不相关和冗余特征,本文提出一种基于加权网络图聚类的特征选择方法。首先为剔除不相关特征,以对称不确定性作为衡量特征与类别集合间相关性的准则;其次根据图具有表征特征空间分布能力的特性,构建特征间连通加权网络图,并利用社区发现算法进行特征聚类;进而以“最大相关最小冗余”原则搜索每个类簇特征空间,最终达到剔除不相关和冗余特征的目的,留下的特征即为具有代表性的特征。该模型能够充分挖掘和利用有效的特征子集。2.为进一步提升鲁棒性和稳定性,本文结合集成学习方法,提出基于双重加权网络图聚类的子空间集成方法。首先选用基于加权网络图聚类的特征选择方法对多个扰动训练数据集进行特征选择。为了选出稳定、相关的特征子集,结合排序聚合技术对多个候选特征子集进行融合,从而减小特征组合搜索空间,降低无关特征对分类性能的影响,提高运行效率;其次为得到区分能力较大的特征子空间,保证特征子集的差异性,将得到的稳定特征子集再次聚类,使相互关联的特征划分到同个类簇,接着从每个类簇特征空间中随机挑选特征构成多个具有差异性的特征子空间。为进一步提升模型泛化性,考虑分类精度和差异性过滤冗余的基分类器,最后采用多数投票的方法对待测样本进行分类。在UCI数据集、文本数据集以及微阵列基因数据集上的对比实验表明,本文方法在降维效果和分类性能方面具有很高可比性,且其时间复杂度低,具有较高的稳定性,适用于高维数据集。
其他文献
网络路由是网络的一项核心功能,在大规模网络互联中起着关键作用。目前的互联网中,网络路由主要是通过部署协议方式提供服务。路由协议隶属于网络体系结构的一部分,特定的路
目的:通过观察通腑泻肺方治疗呼吸机相关性肺炎(VAP)肺胃热盛证的临床疗效及相关炎症指标,初步探讨该方的临床疗效和作用机制,为呼吸机相关性肺炎的治疗提供新方法和思路。方法:运用随机数字表法将符合纳入标准的60例患者分为试验组和对照组,每组各30例。对照组给予常规西药治疗,试验组在常规西药治疗的基础上加用中药通腑泻肺方水煎剂,鼻饲。观察两组治疗前后的临床疗效及血清相关炎症指标水平变化。结果:1.治疗
在大规模野外环境监测应用中,由于实地环境复杂多变和基础通信设施不完善,使用单一通信手段通常不能满足感知数据的传输需要。因此,如何构建具有多种无线通信方式和自组织网
推荐系统有效解决了信息过载问题,但推荐过程中用户隐私泄露已经引起大量的关注。为了提供高质量的推荐服务,用户的隐私往往被不信任的推荐系统所获取。同时,恶意的攻击也常
随着全球气候变化和能源需求不断上升,核能发电技术因其成熟性、经济性和可持续性等优势在众多清洁能源中日益突出,核电的安全性问题也受到广泛关注。汽轮机是核电常规岛的重要组成部分,其超速保护系统是防止汽轮机超速引发严重事故的首道屏障,也是机组安全稳定运行的重要保障。因此在汽轮机超速时,超速保护系统的可靠动作十分重要。本文以某核电厂再热机组超速保护系统为例,将传统可靠性分析方法与机器学习技术相结合,对系统
随着光网络规模的不断扩大和容量的不断提升,网络的生存性问题变得更加频繁和复杂。面对网络中越发常见的多故障问题,传统的线保护、面保护方式已无法满足需求,对保护结构和
目的视神经脊髓炎谱系疾病(neuromyelitis optica spectrum disorder,NMOSD)是一类自身免疫介导的中枢神经系统严重的致残性脱髓鞘疾病。β-干扰素是广泛应用于多发性硬化的疾病修饰药物,被证实能够降低疾病年复发率,但却会加重NMOSD病人的病情,增加疾病年复发率;近来有病例报道提示α-干扰素可能会诱发NMO,但其病理机制尚不清楚。本研究旨在探索Ⅰ型干扰素通路在NM
当今世界经济发展迅速,煤炭、石油等化石能源储藏日益减少,而且环境破坏日趋严重,在此背景下对新能源技术的要求愈来愈高。作为电能转换的关键设备,双向DC-DC变换器的研究受到国内外专家学者的广泛重视。双向DC-DC变换器作为电力电子技术的重要组成部分,能够根据需求调节电压大小,实现功率的双向流动等功能。但传统双向DC-DC变换器还存在一定的缺陷,比如升压能力不足、存在死区时间、输入电流断续等,严重制约
当今设备集成电路产品得到了广泛应用,物理气相沉积装备是集成电路生产线上主要设备的组成部分之一。物理气相沉积设备的性能指标主要为:靶材利用率和薄膜均匀性。影响这两项
偏振探测技术已成为遥感探测的热点,在反演大气精细粒子、云与气溶胶微物理特性等方面展现出广泛的应用前景和价值,进行高精度的偏振定标则是定量化偏振数值反演的保障。为验