【摘 要】
:
新一代信息技术的飞速发展及其在各领域的广泛应用引发了数据的爆炸式增长.如何挖掘海量数据中蕴含的重要信息、发挥数据的价值是现阶段的一项重要任务.数据分类作为数据挖掘中一项非常重要的任务,具有重要的研究价值.然而在很多实际问题中,不论是结构化数据,还是非结构化数据,类不平衡现象都不可避免的存在着.这给数据分类带来了巨大的困难和挑战.近年来,虽然不平衡分类算法在理论、方法和应用方面已经取得了一系列重要进
论文部分内容阅读
新一代信息技术的飞速发展及其在各领域的广泛应用引发了数据的爆炸式增长.如何挖掘海量数据中蕴含的重要信息、发挥数据的价值是现阶段的一项重要任务.数据分类作为数据挖掘中一项非常重要的任务,具有重要的研究价值.然而在很多实际问题中,不论是结构化数据,还是非结构化数据,类不平衡现象都不可避免的存在着.这给数据分类带来了巨大的困难和挑战.近年来,虽然不平衡分类算法在理论、方法和应用方面已经取得了一系列重要进展,但其仍然面临着类重叠与类内不平衡、少数类表达能力不足以及监督信息缺乏等挑战.围绕这些挑战,本文创新性地开展了面向不平衡数据的分类算法研究.主要研究成果如下:(1)针对传统不平衡数据分类中的类重叠与类内不平衡问题,提出了基于自适应欠采样的不平衡数据分类算法.该算法首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.最后根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行Bagging集成分类.实验表明,相比已有的欠采样方法,本文提出的分类算法能够明显改善分类的性能.(2)针对不平衡节点分类中少数类表达能力不足问题,提出了基于混合采样图对比学习的不平衡节点分类算法.该算法的核心是利用混合采样平衡负样本集,实现了不同类样本的平衡,加强了少数类节点的表示,从而提高了不平衡节点分类的性能.大量的实验结果表明,该算法的分类性能较图对比学习算法有了显著的提升,同时与其他代表性的不平衡节点分类方法相比能够获得更优的结果.(3)针对不平衡节点分类中的监督信息缺乏问题,提出了一种基于自监督学习的不平衡节点分类算法.该算法一方面通过自监督学习扩充了监督信息,另一方面增强了节点的表达能力.此外,在交叉熵损失与自监督对比损失的基础上,设计了一种语义约束损失确保图数据增强中语义的一致性.在真实图数据集上的实验结果表明,所提算法可以获得有区分性的表示,在不平衡节点分类任务上更加有效.综上所述,本文针对不平衡分类算法面临的类重叠、少数类表达能力不足以及监督信息缺乏的挑战,利用自适应欠采样、图对比学习以及自监督学习等技术,提出了一系列不平衡分类算法,为数据分类问题提供了一些新方法与新思路,研究成果对于不平衡数据的分析与挖掘有一定的理论意义和应用价值.
其他文献
当代科学技术的飞速发展和日益复杂化,使得学者发现新知识、提出新理论的难度与日俱增,致使研究人员需要掌握的知识和技能日益增加,学术合作成为突破科研难题的新态势。科研团队逐步成为研究人员的主要组织形式,团队成员之间的合作有利于学者之间优势互补,促进科研成果的传播,改善地域之间科学的不平衡发展。然而,学者之间合作产生的动机、学术合作的成功模式、科研团队的组建机制等能有效促进科学难题突破的学者行为机制尚不
目的:1)探讨手术是否导致小鼠的情景记忆的障碍,并采用腹腔注射Gal的干预方法,评价对小鼠情景记忆产生的影响;2)探讨手术导致的PND模型中小鼠海马区不同细胞、受体、突触功能在分子生物学及电生理学变化的特点;3)评价Gal对手术组小鼠海马区不同细胞在分子生物学及电生理学变化的影响。方法:1)选取10-12个月雄性C57/BL6野生型小鼠。手术前对小鼠完成恐惧条件实验中的环境恐惧训练,手术组麻醉下行
背景:急性肺损伤(ALI)是一种严重的临床综合征,其特征是由各种肺部疾病过程引起的肺水肿和炎症,通常需要机械通气和皮质类固醇治疗。尽管ALI的治疗方法取得了很大的进步,但其死亡率依然较高,易发展为急性呼吸窘迫综合征。到目前为止,ALI的有效治疗方法依然相对有限。努力发现新的治疗药物,阻断ALI的进展一直是医学研究的热点及难点。连翘脂素是中药连翘的活性成分之一,属于木脂素类成分,目前已被纳入中药连翘
研究目的:本研究旨在观察冠心平对老年稳定性冠心病合并颈动脉斑块的临床疗效,冠心平对ApoE-/-小鼠动脉粥样硬化炎症反应的改善作用及对人脐静脉内皮细胞(HUVEC)炎症的抑制作用,并从MAPK/NF-κB信号通路探讨其改善炎症反应的效应机制。研究方法:临床试验,选择符合诊断标准的老年稳定性冠心病合并颈动脉斑块患者100例,采用随机、单盲、平行对照法分为两组,在常规西药干预的基础上,治疗组联合冠心平
目的:建立SD大鼠股骨骨折模型,从成骨效应,骨代谢以及分子水平研究西伯利亚接骨木树皮提取物对骨折愈合的作用及机制,为临床用药和进一步开发利用提供理论基础。方法:第一部分:将108只3月龄雄性SD大鼠随机分为5组,除了假手术组12只,其余每个组24只,分别为:假手术组,模型组,醇提组,水提组,阳性对照组(给中华跌打丸)。给药2、4、6周后随机取4只SD大鼠,运用X射线、Micro-CT、生物力学实验
目的:急性心肌梗死(Acute myocardial infarction,AMI)因其高发病率、高死亡率的特点是继恶性肿瘤后人类最主要的死亡原因。近年来,AMI发病率、死亡率呈现上升趋势,且年轻人及女性发病率开始升高。AMI的传统危险因素并不能准确预测疾病发生,且目前AMI的主要诊断指标肌钙蛋白存在灵敏度高、特异度低的特点。因此AMI缺乏有效的早期预测及诊断标志物。本课题通过基础研究探索AMI发
无人艇海底管道巡检作为一种新型的巡检方式,具有作业效率高、范围广、成本低和环境适应性强等优点。但由于作业时间长,且面临着不可预测的周边环境变化,需解决长时间航行和作业中可靠、高精度的导航问题,必要时还需给协同作业的水下无人系统提供导航增强服务。此外,近海区域水上交通比较繁忙,合规有效地避碰他船,是安全航行和作业的关键。因此,本文开展了无人巡检艇的多源导航、协同导航和航行船只避碰关键技术研究,主要研