基于潜在表示和谱图分析的特征选择

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:initial1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的快速发展,各个行业每天都会产生海量的数据。并且,数据维度的迅速扩张,造成了数据中噪声、冗余以及不相关特征越来越多,增大了数据处理的难度。因此,有必要对大规模的高维数据进行降维处理。特征选择作为一种常用的降维方法,根据特定的标准在原始特征中选择具有代表性的特征组成子集,从而获得压缩的数据表示。近年来,许多新颖的特征选择算法相继被提出,取得了不错的成绩。但是,这些方法依然存在一些需要克服的局限性,例如,对数据的固有信息利用不充分,对聚类指标矩阵优化不足,忽略数据的全局结构等。针对无监督特征选择问题,本文提出了三种新的算法。本文的主要工作如下:(1)提出了基于双空间潜在表示学习的无监督特征选择算法(DSLRL)。首先,该算法在数据空间和特征空间中构造亲和度矩阵,分别用于表征实例和特征的内部关系。其次,利用亲和度矩阵,该算法同时在两个空间进行潜在表示学习,获得数据和特征的低维潜在表示。然后,该算法采用数据的潜在表示矩阵为特征选择提供聚类指标,并将特征的潜在表示矩阵与稀疏变换矩阵相统一,利用特征与聚类之间的关联信息指导数据矩阵与聚类指标矩阵的匹配。最后,该算法通过非负和正交条件来约束稀疏变换矩阵,使其更准确地反映特征的重要性。(2)提出了基于离散谱聚类和特征权重的无监督特征选择算法(FSDSC)。首先,该算法将回归模型和谱聚类集成在特征选择的框架中,并引入了特征权重矩阵,以其对角元素直观地表示每个特征的重要性,简化了特征评估的过程。其次,该算法对谱聚类方法进行改进,获得了离散的聚类指标矩阵,为特征选择提供了更清晰的指导信息。此外,该算法对变换矩阵施加正交约束用于避免平凡解,并且,正交回归模型与谱聚类方法的联合,较好地保留了数据的局部几何结构。(3)提出了基于图优化和全局约束的无监督特征选择算法(GOGFS)。首先,该算法将图学习嵌入在特征选择的框架中,在特征搜索过程中同步优化相似度图,获得了更可靠的相似度图,较好地保留了局部结构信息。其次,该算法在特征选择的框架中对低维空间的样本施加约束以捕获样本的全局结构信息。局部和全局几何结构通过相互提供互补信息增强了特征选择算法的性能。此外,该算法利用l2,1–norm约束来选出具有判别性的特征。
其他文献
临涣公司一期化产HPF脱硫装置设有两套并联运行的脱硫系统,其脱硫工艺分别采用络合铁与PDS两种技术,结合脱硫原理,从工艺控制和工业运行效果等方面分析了两种脱硫技术的差异性。结果表明:两者最本质的区别在于络合铁脱硫技术可从源头上抑制S2O32-和SCN-副盐的产生,而PDS技术会产生两盐;相比PDS脱硫,络合铁脱硫对催化剂浓度、脱硫温度、再生空气量等工艺控制的要求更高;络合铁脱硫可将硫化氢质量浓度控
云南省科学技术院聚焦云南省委省政府重点产业发展部署,以引入科技企业、科研平台、科技成果、创新创业人才和团队"四个落地"为目标,通过"以商招商、合作招商、自主招商、项目招商"等方式加大招商引资力度,聚合力、破难题、优环境,科技招商能力和水平不断提升,推动外来投资在全省科技创新、产业升级、区域合作发展等方面发挥了积极作用。
水稻是世界上重要的粮食作物,对保障国家粮食安全和维护社会稳定发展是不可或缺的。改良穗部形态结构是提高水稻产量的有效途径之一。水稻穗长是与穗型密切相关的重要农艺性状,受到多个数量性状基因座(quantitative trait locus,QTL)控制,对产量具有举足轻重的作用。因此,定位分析调控水稻穗长的QTLs以及与穗部性状间的相互关系更能直接有效地为培育水稻新品种提供理论依据。随着基因定位方法
目前,平面广告已经成为最普遍、最重要的广告形式之一。就平面设计而言,文字可谓是平面设计中供给消费全体记忆性最强的设计元素,文字的存在不但可以使得商品信息清楚、精确地展现,平面设计的宣传、美化功能也离不开文字版面的支持。无论是版式设计、文字的排版、色彩搭配还是组合的形式,对于平面设计的效果都有着直接性的影响。就平面设计而言,版式是其设计元素中自身特色最轻的元素。一个技艺精湛的设计者,在平面设计中能够
目的大量研究显示,PDE4抑制剂在体内外均具有显著的抗炎作用,然而因具有严重的恶心呕吐不良反应,限制了其在临床上的进一步应用。因此,寻找新型的PDE4抑制剂成为研究热点。近期本课题组研究发现,α-倒捻子素具有显著抑制PDE4D的活性(IC50≈1μM),但因其典型的氧杂蒽酮类结构,使其亲脂性强,水溶性小,口服生物利用度低,需进一步结构修饰以改善其理化性质,并提高其抑制PDE4活性,以期为后续研发P
学位
手性物质广泛存在各种领域,如农业、食品、材料领域和生物医学等,不同的手性异构体可能表现出不同的生理影响和药理作用。在所有的手性化合物中,氨基酸是重要的一大类,它和人类的生活和健康密切相关,在农业方面的应用也较为广泛。另外,氨基酸还是蛋白质的基本组成单元,在构成蛋白质的20种氨基酸中除甘氨酸外,都有两种对映体(L-和D-氨基酸)。大量的研究表明,生命体在其生物活动中几乎只使用L-氨基酸,而相对应的D
BIM,是建筑产业革命性的技术,在项目精细化管理,建筑全生命周期管理中能够发挥巨大作用。本文就我司自主研发的船舶CAD软件SPD,就其在实际应用过程中的优缺点,并结合国内外数字化造船发展趋势,迎合船舶产品三维设计、数据管理、生产管理、设计仿真与虚拟制造、精度测量与控制等方面业务需求和信息集成要求,提出了将BIM技术应用到船舶行业的方案,并基于此方案,对船舶与海洋工程CAD技术的发展阐述了设想和规划
水杉种子活力低且活力丧失迅速,并且这很可能是其原生种群天然更新困难的重要原因之一,但目前对于水杉种子老化的生理机制还不完全清楚。本研究通过人工加速老化处理和转录组学分析方法,探讨了水杉种子老化的生理机制。主要结果如下:1.新采收的水杉种子平均生活力低,随着人工加速老化处理生活力呈反“S”形丧失,且萌发速率比萌发率对老化处理更敏感。新采收的水杉种子的初始萌发率为(58.00±8.08)%,随后随着老
高脂血症(Hyperlipidemia)指血液中血脂水平异常升高,是目前常见的代谢疾病。高脂血症患者大多伴有“中心性肥胖”,且异位脂肪堆积严重。这种疾病通常无明显症状,常常被人忽略。随着生活水平的提高,高脂血症的发病率越来越高,且日趋低龄化。高脂血症疾病往往与肥胖、2型糖尿病、心脏病、痴呆、心肌梗塞、中风睡眠呼吸暂停和动脉粥样硬化等高死亡率的疾病相关,是目前人类迫切需要解决的健康问题。与含有大脂滴