面向不平衡二分类准则的稀疏模型构造算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ZHENGDAN0226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会的进步,科学的发展,给人们生活带来了日新月异的变化。与此同时各种数据信息的不断积累,在方便人们的同时,也带来了新的挑战。如何从这些大量数据中发现有用信息成为当前急需解决的迫切问题。机器学习的出现为解决上述挑战提供了一种有效的手段,其中的分类学习特别是二分类学习由于在众多领域的广泛应用更是成为当前的研究热点。然而在现实的生活中,很多应用(如网络搜索引擎、个性化推荐系统等)都是不平衡二分类问题,且具有数据维度高的特点,已有面向小数据的传统二分类算法很难直接应用在上述问题中。对此,近些年有学者提出研究直接优化不平衡准则的稀疏二分类模型构造算法,并取得了较好的效果。但这些研究考虑的不平衡准则都是AUC或F1等简单易分解的标准,对于其他较复杂的不平衡准则,如何获得相应的稀疏模型,则研究较少。本文就是在这样的背景下,主要研究了面向复杂不平衡准则的稀疏模型构造算法。全文的主要工作如下:(1)文中从二分类学习入手,首先介绍了传统二分类和不平衡二分类在评估准则的差异,然后总结了面向不平衡二分类算法的研究现状,重点分析了不平衡稀疏模型构造算法的进展,在此基础上,提出研究基于L1范式的复杂不平衡稀疏模型构造算法。(2)不同于已有不平衡稀疏模型构造算法多关注AUC或F1等简单准则,本文研究了面向复杂不可分QM准则的稀疏模型构造算法。算法首先定义了基于QM的新目标函数,针对该目标非光滑难以直接优化,提出使用割平面算法进行求解,不仅解决上述问题,且算法的外围迭代次数仅为O(1/ε)。不平衡基准数据集上的实验结果表明,当用QM为评价标准时,本文提出的算法不仅有很好的精度还有较高的稀疏度。(3)针对已有不平衡稀疏模型构造算法都采用批学习,当面对大规模数据集时,计算效率较差,本文提出一种基于随机学习的稀疏模型构造算法。更具体的说,我们关注的不是某一个具体的不平衡标准,而是具有一类通用特性(如伪线性)的评价准则。文中首先将直接优化伪线性准则问题变成一个代价敏感问题。针对新问题,如果直接使用随机梯度法求解难以获得满意的稀疏度,因此提出使用COlMID算法作为优化方法,确保了解的稀疏性。同时针对已有COMID算法即使是强凸目标函数,也仅能获得O(logT/T)收敛速度,给出一种基于多项式衰减的改进方法,并从理论上证明了所提新方法具有O(1/T)的最优收敛效率。不平衡基准数据集上的实验证明了本文所提算法的高效性和有效性。
其他文献
随着语义Web技术的不断发展,作为语义Web的核心,本体及其相关研究也得到了很大的进步。同时,作为一种清晰表达语义和知识共享的方式,本体在生物医学信息学、电子商务等方面也
在很多实际应用中,比如网络入侵、医疗诊断以及故障检测等,分类处理的对象大多是不平衡数据(集),即某些类别的样本数量明显少于其它类别的数据集,通常这些数据集中的少数类包
随着信息技术、互联网技术的迅速发展,人们可以方便的进行数字信息的交换和传输。这虽然让人们的生活和工作更加便利,工作效率提高,但是带来了数字媒体的盗版。一些人为了谋
随着无人机技术及通信能力的不断提高,无人机在军事行动、紧急搜索以及灾难救助等多种场景得到广泛应用。由多架装有传感器和武器的无人机组成的蜂群状分布式网络,这种传感器群
后基因组时代生命科学中最重大的研究课题之一是蛋白质组研究,对蛋白质空间结构预测研究在整个蛋白质组计划中占有着极其重要的地位。蛋白质预测结构研究内容包括:序列预处理、
现实世界中存在大量的复杂系统,这些复杂系统通常被抽象的描述为复杂网络,如生物网、神经网络、因特网、万维网和社会网络等,复杂网络通常具有社团结构特性。研究复杂网络的
无线传感器网络作为目前研究热点,融合了嵌入式、无线通信以及分布式等技术。它具有广泛的应用前景,在医疗监测、城市管理、智能战场、农业监测、抢险等领域具有极大的应用价值
随着互联网的发展,高校学生可以在校园内随时随地的通过手机、电脑访问因特网,并对社会现象、国际大事、社会道德问题、校园生活等发表言论,这很容易引发舆论危机。建立高校
本文探讨了基于自适应回归模型的图像超分辨率技术及其在数字图像通信领域的若干应用,包括图像错误隐藏和无线环境下的视频编码技术。在实际应用中,受采集设备和传输信道等条
近年来,随着无线技术、嵌入式技术和传感技术的日益成熟和迅速发展,具备计算能力、通信能力和感知能力的无线传感器在世界范围内出现并广泛地应用在军事国防、环境监测、灾难