基于极限学习机的多标记不平衡分类算法研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:upup2004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习考虑单个样例与多个类别标记相关联的情况,类别不平衡学习主要研究样本不均衡带给算法的影响,两者均是当前机器学习研究领域的热点。在多标记数据集中普遍存在类别不平衡现象,虽然目前已经提出了大量的多标记学习算法,但大多聚焦在标记之间相互关系的挖掘,对于多标记数据集的内在不平衡特性却鲜有研究。针对上述问题,本文以传统类别不平衡处理技术中的阈值技术和代价敏感技术为出发点,在极限学习机模型的框架之下,对多标记中的类别不平衡问题展开研究。主要研究内容包括以下两个方面:1)极限学习机有着训练速度快,泛化性能好的优点,在回归、聚类、二类分类和多类分类等领域都有相关研究,但在多标记领域的研究相对较少,且未考虑到多标记数据中的类别不平衡现象。本文借鉴类别不平衡处理中的阈值技术,结合极限学习机框架,提出基于PSO粒子群优化的多标记阈值自适应极限学习机MLTA-ELM(PSO-based Multi-Label Threshold Adaptation Extreme Learning Machine)算法。在极限学习机实际输出矩阵的基础上,引入自适应阈值技术,将阈值选择问题转化为多变量最优化问题,并采用PSO粒子群优化算法寻求最优阈值组合。最后在12个常用多标记数据集上验证了MLTA-ELM算法的有效性,并从统计结果上进一步证明了MLTA-ELM算法性能的优越性。2)标记加权极限学习机开创了代价敏感学习思想在标记加权中的应用先河,但在多标记学习上,标记加权极限学习机对数据集的内在不平衡特性挖掘尚不充分,仅使用了类别不平衡比率的经验加权方式。针对这一问题,本文提出基于AdaBoost的多标记加权极限学习机Ada-MLW-ELM(AdaBoost-based Multi-Label Weighted Extreme Learning Machine)算法。该算法对AdaBoost进行改进,将其权重分布与标记加权极限学习机相结合,并在权重更新过程中充分利用了多标记数据集的不平衡特性,使得模型不仅继承了标记加权极限学习机的低时间复杂度,也提升了算法的性能与稳定性。通过在12个多标记数据集上与其他9个算法进行比较,证明了Ada-MLW-ELM算法性能显著优越于其他算法。
其他文献
<古诗十九首>长于抒情,抑扬有致,堪称古代抒情诗的典范之作,其境界清新而又醇厚,显示出五言诗的形式美、抒情美和艺术美.<古诗十九首>开拓了诗歌的抒情空间,开辟了中国古典诗
由于中国处于经济改革的攻坚期和社会的快速转型期,以社区为依托的城市建设新问题、新矛盾层出不穷,城市社区公共产品的供需矛盾尤为突出。随着社区建设的不断深入,城市社区
<正> 建立完善而发达的金融市场是中国经济体制改革的重要目标之一,这包括中央银行的独立运作与宏观调控手段的间接化、专业银行商业化改革、证券市场的规范化等内容。与金融
为缓解天然气的紧缺压力,实现煤炭的高效清洁利用,煤制天然气得到了大力发展。与传统的天然气不同,煤制气中含有一定量的氢气,氢致脆化成为相关长输管线的关键安全问题。在管
满巢初期阶段是我国现代标准核心家庭结构,是亲子旅游市场的主力军。传统的旅游行为研究主要基于个体旅游者视角,无法有效解释满巢初期阶段家庭的亲子旅游行为现象。本文基于家庭生命周期理论、家庭系统理论和旅游者行为理论等三大理论,以满巢初期阶段的核心家庭作为基本的旅游群体单元,将南京市红山森林动物园和玄武湖公园作为案例地,对满巢初期阶段不同家庭中父母的旅游行为进行分析,从亲子旅游决策、亲子旅游动机、旅游前和
近年来,各种新增金融支付渠道的涌现,给银行收单系统增加了交易路径选择上的复杂性与不确定性。为实现银行收单系统及时、高效地接入新的支付渠道,降低系统运营难度和商户交
规模化牛场粪便、污水等废弃物排泄量大,污染严重,已经成为制约养牛生产可持续发展的主要因素。本文综述了牛场粪污无害化处理及资源化利用方法,希望对规模化牛场管理人员进
多药耐药性(Multidrug resistance,MDR)是指肿瘤细胞接触一种抗癌药物产生耐药的同时,也对其他结构和作用机理并不相同的药物也产生耐药,是恶性肿瘤化疗失败的重要原因之一。
镍基单晶高温合金由于其优异的高温综合性能,而被广泛地应用于制造航天发动机涡轮叶片等耐热部件,随着航空航天工业的迅猛发展,对涡轮叶片的性能要求不断提高,而我国镍基单晶
通过对GPS快速静态定位测量技术在地籍调查E级GPS控制网建设中的应用探讨,阐述了该技术应用的意义、原理、方法和应用中应注意的问题,并总结出GPS快速静态定位测量技术的特点