基于稀疏结构和深度学习的降维方法研究

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:dezhouhaote6600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,数据量及数据维度的不断增大,人们迫切需要一些高效的降维方法来从海量高维数据中提取有效的特征信息,达到快速处理海量高维数据的效果。然而,大部分常用的降维方法没有充分利用原始高维数据的结构信息和少量标签信息,不能充分挖掘数据的内在结构特点,因此产生的低维数据表示缺乏判别性,对其进行聚类的结果也有待提高。此外,新的低维数据表示和原始的高维数据之间的映射关系非常复杂,以致于单层的聚类方法不能充分表达。因此,论文针对上述问题,进行了相关研究,取得了以下一些研究成果:(1)提出了基于双图稀疏非负矩阵分解特征选择算法。该算法可以通过非负矩阵分解找到数据合理的低维表示,并通过特征选择算法在低维表示空间选择出更具判别性的特征,进一步降低数据维度。该算法将双图模型与非负矩阵分解相结合,不仅可以同时保留数据空间和特征空间的局部流形结构,而且可以使两个空间的非负矩阵因子在交替迭代更新的过程中相互作用更新,充分发挥双图模型的效果。不仅如此,在此基础上还提出了新的局部判别特征选择聚类,与其他聚类算法相比,该算法有着更强的判别能力,聚类效果更好。实验分析表明,与8种特征选择算法和7种聚类算法相比,提出的算法在聚类精度和标准互信息两个指标上有着明显的优势。(2)提出了基于稀疏正交约束的双图正则非负矩阵分解算法。半监督非负矩阵分解不仅可以利用少量的标签信息有效学习目标(像文本和人脸)中的局部信息,而且可以降低原始高维数据的维度。该算法将双图模型引入到半监督非负矩阵分解中,同时考虑了数据空间和特征空间的流形结构。另外,该算法使用稀疏约束,可以简化计算并加快处理速度。最重要的是,该算法利用了双正交约束,可以避免图像和基本矢量之间的不对应问题。因此,该算法可以有效地增强聚类的辨别力和排他性,并提高聚类性能。实验分析表明,在3个真实数据集上,该算法比其他4种先进的算法有着更好的聚类效果。(3)提出了基于双图稀疏的深度非负矩阵分解算法。非负矩阵分解可以从原始的高维数据空间中学习一种低维数据表示。然而,新的低维数据表示和原始的高维数据之间的映射关系非常复杂,以致于单层聚类方法无法更好的表达。该算法能够根据原始数据集中未知且不同的属性,学习出一种隐层的表示用于实现聚类表达。不仅如此,为了充分挖掘数据空间和特征空间的局部几何信息,该算法采用多层的双图流形学习,不仅可以处理数据维度较高的数据集,而且可以处理数据量较大的数据集。与此同时,为了简化计算、加快处理速度、提高算法效率,该算法引入了多层稀疏约束。实验分析表明,在4个不同的数据集上,该算法比其他6种先进的算法有着更好的效果。(4)提出了基于双正交约束的半监督双超图深度非负矩阵分解算法。半监督非负矩阵分解不仅有非负矩阵分解的优势,可以有效学习目标中的局部信息,而且能够利用少量的标签信息,提高对高维数据降维的效果。该算法在深度框架下根据原始数据集中未知且不同的属性,学习出一种隐层的表示,并且对每一层降维后的两个矩阵引入了双正交约束,使得解具有唯一性,可以更好地进行聚类表达。更重要的是,该算法采用了多层的双超图流形学习,可以挖掘数据空间和特征空间中数据点之间的高阶关系,充分保留数据内在的流形结构。实验分析表明,在4个不同规模的测试数据集上与6种算法对比,该算法比其他先进的算法有着更好的效果。(5)提出了基于局部结构信息和判别信息的图卷积网络算法。该算法将传统的机器学习思想融入到图卷积网络中,以进一步提升特征提取的性能。图卷积网络虽然考虑了数据中的结构信息,但是构建的是同一特征图来进行图卷积,忽略了不同样本的局部结构之间的差异。为了挖掘原始数据中不同样本结构间的差异性,充分利用原始数据的几何结构信息,该算法对原始训练数据中的不同训练子块构建不同的特征图,可以有效地挖掘数据的局部几何结构。不仅如此,该算法引入了判别正则项,可以有效利用原始数据中的判别信息,使得算法具有更好的判别能力和鲁棒性。实验分析表明,该算法可以很好地实现特征提取任务,在分类准确率和F1值上,该算法要优于现有的方法。
其他文献
为防止农作物遭受病虫的侵扰而减产,世界各国都不同程度的生产和使用农药,大量农药的使用对生态环境和人类健康造成了威胁,为此农药检测技术的研究是环境领域的研究热点之一
运用微分几何方法研究了同结构高维混沌系统间的完全同步问题。高维混沌系统的同步问题较为复杂,并且对于MIMO非线性系统,运用单纯的微分几何方法只能处理系统相对阶与系统维数相同的情形。本文中,基于微分几何部分反馈线性化与零动态问题结合的方法,使高维同结构混沌系统间的同步问题获得了一个解决方案。在第一章中,简单介绍了相关的微分几何基础理论,包括非线性系统的状态空间描述、非线性系统坐标变换、相对阶nr(2
量子纠错码在量子信息处理和量子计算中有着重要的作用.相比现有的经典纠错码技术,量子纠错码技术能大幅度提高信息传输的安全性,通道传输的容量以及效率.q元量子MDS码具有较好的纠错能力和实用性,是量子纠错码中最为重要的一类.因此,构造量子MDS码,具有重要的理论和应用意义.近年来,许多不同类型的量子MDS码被构造出来,但除了少数的一些,几乎所有的q元量子MDS码的最小距离都小于或等于q/2+1.本文在
公安机关作为执法机关具有双重属性身份,在现有的法律框架下,公安机关一方面有行政执法权力,另一方面法律又授予其刑事执法职能,公安机关在行政执法与刑事司法的衔接过程中包括实体衔接、程序衔接。从公安机关视角分析丁某等人制作销售假奖券案件争议点,从实体衔接和程序衔接两个角度分析司法实践出现的分歧点,实体衔接是指对行政违法行为是否涉嫌犯罪的判断,以及当涉嫌犯罪的行政违法行为既要追究行政责任又要追究刑事责任时
严重退化土壤固碳潜力巨大。生态修复措施的实施,我国南方红壤侵蚀退化地植被逐渐恢复,林下发育了大面积的芒萁群落,并快速增加了土壤碳吸存,研究芒萁覆盖下新形成的有机碳稳
随着科技的不断进步和发展,图作为一种重要的数据结构已广泛应用于各种新兴领域,如社交网、蛋白质交互网、生物信息网、智能交通网等。近年来,互联网用户数量的飞速增长和网络技术的深度发展,导致图数据规模日益庞大且动态变化。如何对大规模动态图进行有效的管理成为当前图数据领域研究的热点问题。子图查询作为重要的图搜索技术,因为其可以更具针对性地为用户返回查询结果而被广泛研究。传统算法处理大规模图子图查询效率低下
目的前列腺癌是老年男性的常见恶性肿瘤。目前针对早期前列腺癌患者,可以通过根治性手术或者根治性放疗等方式,达到良好的治疗效果。而局部进展期和转移性前列腺癌一般选择雄激素去势为主的姑息性治疗,绝大多数患者经过手术或者药物去势治疗后,肿瘤的生长在一定时间内得到了有效控制。但是随着病情进一步发展,此时前列腺癌将进入“去势抵抗”阶段。针对此部分的患者,目前尚缺乏规范统一的治疗方式,而传统的化疗、免疫治疗以及
重型数控机床的加工能力是一个国家工业水平和综合实力的重要体现,反映机床加工能力的关键因素是加工精度。龙门结构和机床底座等机床结构件在加工过程中的力、热变形是影响加工精度的主要因素。因此,研究结构件变形的实时监测与在线补偿对于提高重型数控机床的加工精度具有重要意义。重型数控机床结构件形状不规则,相互作用较多,受载信息获取困难,普通变形测量方法难以满足机床结构件的变形监测。本文基于逆有限元法(iFEM
目的研究分析秦皮甲素对溃疡性结肠炎(Ulcerative Colitis,UC)小鼠肠粘膜的抗炎作用的研究。方法选用90只BALB/c小鼠用于相关的研究和实验,通过随机数字表法对实验用的小鼠进行随机分组,主要划分为正常组、模型组、柳氮磺胺吡啶组、秦皮甲素(低剂量组)、秦皮甲素(中剂量组)以及秦皮甲素(高剂量组),每组各15只。除正常组外,均给予葡聚糖硫酸钠(DSS)制备UC小鼠模型,正常组、模型组
近年来,随着机动车数量的剧增,交通肇事案的发案数也持续攀升。在司法实践中,交通肇事案的处理往往涉及到对介入因素的分析、逃逸行为的认定、量刑情节的把握等,争议很大,尤其是存在介入因素的案件中。介入因素的处理是刑法理论和司法实践中的重点、难点和争议点,它的存在让因果关系的认定和责任划分更为复杂,因而在定罪和量刑上极易发生分歧。对交通肇事案件中的介入因素进行分析既有一定的难度,也有较大的理论和实践意义。