【摘 要】
:
近年来,深度学习在图像理解,语音识别,自然语言处理等多个领域取得了突破性进展。但是在实际应用中,深度学习往往依赖于大规模标注数据进行模型训练,如何降低深度学习所需的数据标注规模成为亟待解决的问题。传统的主动学习方法通过手工设计样本查询策略,使机器可以逐一地或批量地选择对于模型训练最有价值的样本进行标注,从而显著减少样本标注代价。逐一采样由于效率低下难以用于大规模深度学习;批量式采样易于规模化训练,
论文部分内容阅读
近年来,深度学习在图像理解,语音识别,自然语言处理等多个领域取得了突破性进展。但是在实际应用中,深度学习往往依赖于大规模标注数据进行模型训练,如何降低深度学习所需的数据标注规模成为亟待解决的问题。传统的主动学习方法通过手工设计样本查询策略,使机器可以逐一地或批量地选择对于模型训练最有价值的样本进行标注,从而显著减少样本标注代价。逐一采样由于效率低下难以用于大规模深度学习;批量式采样易于规模化训练,却也在深度学习中暴露出如下两个方面的问题。其一,现有批量式方法大多针对特定数据或模型进行设计,缺乏广泛的适用性;其二,这些方法往往未能同时考虑模型对于样本的不确定性以及样本本身的代表性,容易造成选择性偏差。针对上述问题,本文的主要工作如下:(1)为了学习适用性强的代表性样本查询策略,本文提出了一种基于变分对抗的主动学习方法。该方法基于变分编码对抗的思想,通过查询助理模型与变分自编码器的对抗学习,使得查询助理模型动态地学习标记样本与未标记样本之间的分布差异,从而允许差异化的选择具有代表性的未标记样本进行主动学习。得益于查询助理的可学习性,该方法可以根据模型和数据的不同状态自适应调整查询策略。(2)为了避免代表性和不确定性的选择性偏差,本文将模型不确定性引入上述基于变分对抗的主动学习方法。一方面,将模型预测结果和对抗表达进行特征融合,得到具有模型不确定性信息的特征表达作为查询助理的学习对象;另一方面,将模型损失预测作为模型对样本的不确定性度量,以此对查询助理施行约束正则。通过上述改进,该方法可以综合利用代表性和不确定性选出更有助于模型学习的样本。(3)为了验证本文提出的主动学习方法的先进性,本文在四个主流的图像分类数据集上进行了对比实验。与目前先进的主动学习方法相比,本文提出的主动学习方法在减少标注成本和提高采样性能方面均表现出显著的优势。采样结果的可视化实验和消融实验则验证了方法设计的合理性和有效性。
其他文献
程序性细胞死亡蛋白1(Programmed Cell Death Protein 1,PD-1)/程序性细胞死亡配体1(Programmed Cell Death Ligand 1,PD-L1)介导的信号通路涉及细胞增殖、分化、信号转导和程序性细胞死亡等诸多生理过程,现已成为癌症与免疫相关疾病治疗的关键靶点。虽然靶向PD-1/PD-L1通路的抗体药物在多种癌症临床治疗中取得了显著疗效,但仍存在无口
频繁的地震灾害会造成不可估量的人员伤亡和财产损失,震后灾区急需外部救援,因此制定高效合理的应急物流方案具有十分重要的意义。其中,地震应急配送中心选址和运输路径选择作为应急物流方案的关键部分,其优化结果能有效保证应急物资快速及时地送至受灾点,进而保证灾区人民生命安全以及减少国家经济损失。但是地震造成灾区道路损毁,导致路网失效影响灾区可达性,而物流运输作为应急物资流通的承担者,其效率十分依赖于道路畅通
随着社会进步,经济发展,私家车出行已成为居民主要的出行方式。快速的城市化进程使得城市居民数量和私家车保有量飞速增长,带来了一系列交通问题。作为城市化进程产物的通勤使得早晚高峰的交通问题尤为突出。共乘匹配是指发现行程具有高相关性的群体,面向通勤私家车进行共乘匹配是缓解甚至解决早晚高峰的交通问题的有效措施之一,它有助于减少交通流量,缓解交通拥堵,节约停车成本,对于缓解交通问题十分有效。机动车电子标识(
随着深度学习的快速发展,大量目标检测的技术开始应用于传统领域中,如自动驾驶,人脸识别,工业瑕疵检测等。目标检测中的大模型具有较好的检测效果,但伴随着巨大的网络深度和宽度,耗费了大量的算例和内存资源,难以在移动端部署。小模型可以在移动端部署,但往往效果不佳。知识蒸馏作为一种模型压缩方法,可以将大网络的知识传递给小网络,在不改变小网络架构的基础上,提升小网络的检测效果。在知识蒸馏中,大网络为教师网络,
当前在我国老龄化程度加剧的社会背景下,养老地产依靠政策支持、赢得市场认可并成为养老领域的研究热点,这对于应对人口老龄化问题具有积极的影响。虽然我国养老地产的发展已步入快速发展的初级阶段,养老地产开发企业面对众多备选项目仍无法快速精准地做出选址决策。与此同时,企业为抢占市场先机甚至出现不合理选址的判断,不仅对企业造成损失,还可能造成社会资源浪费和养老市场混乱,违背积极应对老龄化问题的初衷。养老地产的
癌症严重危害我国人民的生命和健康。随着癌症新发病例与死亡病例人数逐渐攀升,癌症防治形势愈发严峻。目前,手术治疗和化学药物疗法仍然是大多数中晚期癌症患者的主要治疗方式,然而患者在接受治疗后仍会因肿瘤细胞的耐药性使得常规治疗手段难以取得理想的效果,治疗预后效果较差、易复发,甚至导致治疗失败。近年来,脉冲电场肿瘤治疗技术作为一个新兴的物理治疗手段,以其独特的细胞调控功能引起国内外很多研究学者的关注和研究
随着机器视觉在工业领域的广泛应用,工业产品质量检测不断朝着智能化发展。本文工业衬垫产品缺陷检测研究内容源于实际企业的迫切需要,该企业在此类衬垫产品的生产过程中,由于生产环境或操作不当导致其轮廓或表面产生缺陷,如边缘缺料导致形状与设计图(模板图像)不符,或产品表面有污渍、划痕、凹痕的情况。针对人工检测存在效率低且误检率高等问题,本文结合该衬垫产品轮廓缺陷和表面缺陷的不同特点,提出了对应的基于机器视觉
骨髓是主要的造血器官,存在于成人体内多孔介质的松质骨腔隙中,具有复杂的力学环境。三维灌注系统提供空间骨髓梯度、密集的细胞分布,能更好地模拟造血微环境,已广泛应用于体外干细胞培养。其中支架结构与细胞活动紧密相关,且动态培养时因流体流动产生的力学刺激对干细胞生物功能具有重要影响,种种研究表明支架的形态结构很可能作为模拟骨髓力学环境的关键因素在诱导红细胞生成时发挥作用。然而目前的实验手段难以准确测得支架
近年来,我国商业建筑投资额和新开工面积呈现出由数量发展向高质量发展的趋势,人民开始追求更加美好的生活,向往购物消费体验更加良好、导向性更加优良的商业建筑。随着城市化步入“下半场”,当前建筑设计正在进入以存量设计为主导类型,以品质提升为主要任务的新阶段。商业建筑设计也正在由空间扩张的增长性设计,转向以室内公共空间导向性品质提升为主导的环境营造与精细化设计。面临商业建筑面积越来越大的发展背景下,商业建
细菌每年可导致9亿人感染,已成为全球公共卫生的巨大威胁。细菌感染的治疗方法主要为抗生素类药物治疗,但滥用抗生素导致了耐药细菌的种类急剧增加,且目前已存在多种类型的多重耐药细菌。世界卫生组织公布了12种对人类社会造成严重威胁的多重耐药菌,其中耐甲氧西林金黄色葡萄球菌(MRSA)被归类于高度耐药性。常见的MRSA检测方法根据靶标类型的不同可以分为三大类:平板培养法、PBP2a蛋白免疫检测法、mec A