针对不平衡数据的多源在线迁移学习方法及应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:sunplusit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多源在线迁移学习利用多个源域的标记数据来增强目标域的分类性能,其中目标域以在线的方式接受数据。通过动态调整源域和目标域的权重,使得各个域能被自适应地利用,所以具有良好的泛化性能和极高的学习效率。然而在许多现实场景中的数据往往是不平衡的,其中的少数类样本被误分类将带来重大的损失。为了有效解决这样的实际问题,本文提出了新的多源在线迁移学习算法,具体的研究工作如下:本文提出了一种可以对目标域样本过采样的多源在线迁移学习算法。该算法从前面已经达到的批次的样本中寻找当前批次的样本的k近邻,先少量生成多数类样本,再生成少数类样本使得当前批次样本的类别分布平衡。每个批次合成样本和真实样本一同训练目标域函数,从而提升目标域函数的分类性能。同时,分别设计了在目标域的输入空间和特征空间过采样的方法,并且在多个真实世界数据集上进行了综合实验,证明了所提出算法的有效性。为了应对源域和目标域数据都不平衡的情况,本文进一步提出了一种可以在源域和目标域的特征空间中过采样的多源在线迁移学习算法。该算法主要包含两个部分:对多个源域过采样和对在线的目标域过采样。对源域过采样阶段,在支持向量机分类器的特征空间中过采样来生成少数类样本,新的样本是通过在源域特征空间中的邻域信息来扩增原始的Gram矩阵得到的。对在线的目标域过采样阶段,目标域的样本分批次到达,当前批次的少数类样本从前面已经到达的多个批次中寻找特征空间中的k近邻,利用生成的新样本和当前批次中的原始样本一同训练目标域函数。通过核函数将源域和目标域的样本映射到同一特征空间中进行过采样,使用类别分布相对平衡的源域和目标域数据训练相应的决策函数,从而提升算法的整体性能。并且在四个真实数据集上进行了全面的实验,在准确率和G-mean这两种评价指标上,都要优于所对比的算法。
其他文献
推荐系统作为一种高效的信息过滤工具,可以有效地缓解“信息过载”问题。协同过滤是推荐系统中使用最广泛的算法,它通过用户的历史行为分析用户偏好,建模用户特征,为用户推荐感兴趣的项目。由于协同过滤需要使用用户的历史行为数据,而这类数据相对于项目数量往往很少,因此协同过滤容推荐面临着严重的数据稀疏问题。最近,由于用户与项目的关联可以构成天然的二分图,基于图神经网络的推荐越来越受到关注。通过用户-项目二分图
学位
TSK模糊模型是众多模糊模型之中最具影响力也是应用最广泛的一种,它具有高可解释性和强大的逼近能力,已经在很多领域得到了成功的应用。但是,在实践中,模糊模型的性能取决于可用数据的数量和质量,需要充分的训练才能获得较好的泛化能力,而集成学习为构建模型提供了一种有效的方法,它通过结合多个学习器来完成学习任务,通常可以获得比个体学习器更加优越的泛化性能。但是当数据不平衡时会导致系统的训练精度下降,泛化能力
学位
肌内脂肪(Intramuscular fat,IMF)是一种肉质属性,定义为可食用肌肉中分散的脂肪颗粒的总数量,代表了肉的脂肪水平,广泛认为这一特性对猪肉的烹饪质量(即风味、多汁性)、消费者满意度以及消费相关健康问题有很大影响。过去常通过化学以及光谱等方法来测定IMF含量,但这些方法需屠宰后采样,为了在育种中选择肉的质量特征,开发体内方法是非常重要的。CT是无创断层图像,密度分辨率高,可将细小的点
学位
肝癌的致死率在癌症中位居前列,严重威胁着人体健康。在临床应用中,CT是医生进行肝癌诊断的常用方式之一,从CT影像中对肝脏和肿瘤区域的精准分割,对疾病的诊断和预后治疗具有重要的研究价值。传统分割算法多依赖于先验知识,不利于临床应用中的自动化扩展。近年来,深度卷积神经网络(Deep Convolutional NeuralNetwork,DCNN)被广泛应用在肝肿瘤分割任务上,通过局部感知和参数共享的
学位
在很多经典的深度学习网络模型中,多尺度特征融合结构都发挥着重要作用。多尺度意味着在不同粒度下对信号数据进行观察。当粒度更大更稀疏时,网络能够学到整体的趋势,获得全局性的高层特征;当粒度更小更密集时,网络能够学到更多的细节,获得局部性的底层特征。将不同粒度学习到的特征通过独特的空间通道均衡方法融合在一起,促使网络同时注重纹理和结构,从而保证模型的高效性和鲁棒性。在本研究中,我们将主要聚焦于深度神经网
学位
核磁共振成像(MRI)、计算机断层扫描(CT)等医学成像技术为病痛中的患者带来了福音。就MRI而言,通过在体外成像,便可探测体内病灶部位,在减轻病人痛苦的同时,一些隐蔽的心血管疾病、淋巴结恶性病变等在MR图像中无所遁形。然而,由于MRI受到接收器电路以及人体活动等不可控因素影响,噪声和伪影随即出现,成像质量发生了不可避免的退化。研究者们结合传统方法和深度学习方法对生成高质量医学影像进行了探索:一些
学位
图像融合一直是图像处理领域里的一个重要研究方向,其目的是将不同模态图像中的信息融合在一起,使得融合图像既包含多个模态图像中的显著信息同时降低模态间的重复特征。图像融合在很多计算机视觉任务中都有重要应用,比如多源检测、目标跟踪、监控等。在近几十年里,学者们提出了很多解决图像融合任务的算法。基于多尺度变换的融合方法和基于稀疏/低秩表示的融合方法是传统的图像融合方法中最重要的两种,但是这些方法在学习过完
学位
随着全球经济的高速发展,各类社会活动对能源的需求日益剧增,在精确的负荷预测帮助下,电力能源的生产,调度情况将会有极大的改善,从环境保护的角度上也将节约许多不必要的能源浪费。电力负荷预测是当今电力系统管理中最重要的一项任务之一,然而如今社会用电模式日益丰富,传统的负荷预测模型可能无法应对此类复杂的情况。本文首先简要阐述了负荷预测的相关概念,基于负荷的不稳定特性和周期性分析了电力负荷变化的本质,并列举
学位
据调查显示癌症是威胁人民身体健康的病因之一,治疗费用昂贵且不易治愈,而放射线治疗是治疗癌症的有效手段。放射治疗的成功很大程度上取决于对肿瘤的准确照射和对周围高危器官的保护。为了将规定的剂量输送到靶区,减少健康器官受辐射的影响,高危器官的分割对于放射治疗的正确规划至关重要。在临床实践中,分割由专家手动执行以规划放射治疗,手动分割既耗时又繁琐,结果可能因专家而异。自动分割技术可以提供准确稳健的结果,帮
学位
近年来,物联网设备(Internet of Things,IoT)发展迅速,时间敏感的应用如视频流、智能交通、数据共享和个性化多媒体等服务需求迅速增加。边缘计算应运而生,其核心思想是将一部分请求卸载到网络边缘节点进行处理,而不是将其上传到云服务器处理。但是,相比于拥有强大运算能力的云服务中心,在移动边缘计算架构中,边缘服务器的计算资源和存储资源通常是有限的,且分布比较分散。面对未来大规模增加的接入
学位