【摘 要】
:
在医疗诊断和推荐系统这些难以获取负样本的实际应用中,通常只能得到比较少量的有标签正样本数据,剩下了大量的无标签样本数据。为了同样能够利用这些数据进行机器学习,研究者们提出了正样本-无标签学习这种特殊的半监督学习方法,当训练阶段只有少量的有标签正样本和无标签样本数据时,就可以使用这种学习方法。该方法对于负样本难以定义或获取成本高的应用特别有用。目前最流行的正样本-无标签学习方法基于代价敏感学习,这种
论文部分内容阅读
在医疗诊断和推荐系统这些难以获取负样本的实际应用中,通常只能得到比较少量的有标签正样本数据,剩下了大量的无标签样本数据。为了同样能够利用这些数据进行机器学习,研究者们提出了正样本-无标签学习这种特殊的半监督学习方法,当训练阶段只有少量的有标签正样本和无标签样本数据时,就可以使用这种学习方法。该方法对于负样本难以定义或获取成本高的应用特别有用。目前最流行的正样本-无标签学习方法基于代价敏感学习,这种方法的效果好坏往往都依赖于类别先验是否能被准确地估计,这大大制约了该方法在实际应用中的效果;基于生成模型的方法不依赖类别先验,但由于模型比较复杂,通常都较难以训练。本文提出了一种非对称损失,可以在正样本-无标签学习场景下端到端地学习一个分类器,而且不需要调整超参数也不需要知道类别先验。在仿真数据集和真实图像数据集上进行的大量实验验证了该算法的优越性能。本文的主要贡献如下:·本文提出了一种简单有效且可扩展的非对称损失,以解决正样本-无标签学习问题。所提出的非对称损失对于正样本和无标签样本的预测误差有着不同的行为,因此能够鼓励分类器从无标签样本中识别负样本。·对于提出的非对称损失,本文提供了另一种解释,即所提出的损失是传统的交叉熵损失与对无标签样本的惩罚的结合,同时本文将适用于二分类的非对称损失自然推广到了多正类的情况。对于满足完全随机选择假设的正样本-无标签学习,与现有的其他方法相比,本文提出的方法的超参数和类别先验都不需要调整或已知。·对于有标签样本存在选择偏差的情况,本文引入了一个超参数,将非对称损失扩展到其一般形式,并提出了一种启发式方法,该方法能够根据训练数据的类别先验自动选择超参数。
其他文献
能源是推动人类社会文明发展与进步所需要的重要资源。其中,太阳能作为“取之不尽,用之不竭”的清洁能源受到了研究人员的广泛关注。近年来,有机-无机杂化钙钛矿太阳能电池因其成本低和转换效率较高成为研究的热点。有机-无机杂化钙钛矿太阳能电池发展了短短的十几年时间,光电转换效率就突破25%,紧追单晶硅太阳能电池,但其稳定性问题是实现商业化的主要瓶颈。为了提高钙钛矿太阳能电池的稳定性,需要从制备器件的材料,结
超强超短脉冲激光的出现,催生了一门新兴的学科一强场物理。在超强激光场中,微扰理论不再适用原子与激光相互作用的研究,需要引入新的非微扰理论,比如:高频弗洛凯理论。处在强激光场中的原子分子会表现出一个很有趣的现象:随着激光强度的不断增强,原子的电离率反而出现了下降。这种全新的现象称之为“原子稳定”。高频弗洛凯理论(HFFT:High Frequency Floquet Theory)阐明,在高频近似条
随着技术的发展,医学的数字化和信息化的发展也在不同程度上呈现出上升趋势。同时电子医疗比起传统医疗的优势也更加明显,其中电子健康系统就是电子医疗中最具有代表性的系统。然而如今在这个大数据的共享时代里,用户更为关心的是在使用系统过程中存在的隐私安全问题。为此,研究者们对于解决这些问题也提出了很多自己的观点和想法,而这其中属性基加密是大家普遍认可的一种较为可靠和安全的加密方法,同时属性基加密的出现也对解
针对工业控制系统(Industrial Control Systems,ICSs)的网络威胁的频率和复杂程度与日俱增。工控网络协议(Industrial Control Protocol,ICP)是进行工控网络通信的基石,因此保证工控网络协议的安全性对工控系统的重要性不言而喻。研究人员们也日渐认识到,在不考虑工控网络协议的安全性的情况下,如何确保工业控制系统的安全性更无从谈起。但工控网络协议所应用
钍基材料相比于传统的铀有着更丰富的储量、更优秀的防扩散性能、更高的能量密度和更少的核废料产出,可以替代铀作为核燃料,是解决长期能源供应的一种技术方案。在钍基材料中,钍基氮化物凭借着高可裂变物质密度、高熔点、优秀抗辐照性能等优点,成为第四代核反应堆的具有应用前景的核燃料之一。ThN、Th3N4和Th2N3都是第四代核反应堆的重要候选燃料,其中科学家们已经对ThN进行了较深入的研究,而Th3N4和Th
为满足现代化工业需求,零部件的质量要求逐渐提高,高效率和高精度零部件的生产是目前急需解决的工程问题。所有旋转零部件都需要动平衡校正,平衡校正的结果成为零部件质量评估重要指标之一。在传统柴油机飞轮的动平衡校正过程中,使用键对飞轮定位,长时间使用的键和键槽容易磨损,出现飞轮定位不准确的现象,导致飞轮动平衡去重区域的识别不精确;再者有些类型的柴油机飞轮的键槽位置是任意的,键对飞轮的固定位置也是任意的,和
近几年,双线性配对技术被广泛应用于密码学的多个领域,许多基于双线性配对技术构造的加密和签名方案被提出。尽管这几年在实现技术上有了新的进展,但与有限域中的指数等标准运算相比,配对运算仍然被认为是一种相当昂贵的运算,不适用于代理重加密,数据聚合签名等众多用户计算资源有限的场景中。因此,为了节省计算开销,如何构造不依赖于配对的轻量级路径代理重加密方案和数据聚合签名方案是值得研究的问题。本文主要工作包括以
随着数据规模和计算复杂度的不断增加,在云计算环境中执行现代工作流应用会涉及大量不同类型和价格的云资源。这使得云工作流调度的成本成为人们关注的焦点。另一方面,由于云数据中心的能耗也在日益增加,云工作流调度的能耗也成为了学界和业界关注的问题。为了向用户提供成本更低的工作流调度服务同时降低云数据中心的能耗,基于性能的定价方案应运而生:云服务提供商可基于动态电压/频率调节(Dynamic Voltage
属性类别级情感分析(Aspect Category Sentiment Analysis,ACSA)是从非结构化文本数据中针对各个属性类别分析其各自蕴含的情感倾向。相比于通过对评论文本进行传统的情感分析,属性类别级情感分析能够使得公司更深入、更细致地了解评论的细节信息,了解用户针对具体对象的情感倾向。然而,现有的相关模型在建模时未能很好地将文本语句与所对应的属性类别进行深度融合,这对于属性类别级情
人工智能在物联网等领域应用日益广泛,而其中常用的深度神经网络易受对抗样本攻击这一脆弱性给这些应用带来了巨大的安全隐患。因此如何在最小化模型计算负载和推理时间增幅的前提下,设计一个泛性地使对抗样本防御能力提升的方法,以及如何利用分布式训练的加速训练效果和各节点独立特点进一步提升模型的对抗样本防御能力是本文面临的主要挑战。为解决上述的问题,本文利用分支网络结构和特征融合方法设计了一种新的多分支单模型结