基于样例及标记相关性的多标记学习算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:heatsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习作为一种解决多义性对象学习建模的框架,其研究成果已经广泛应用到诸如文本分类、网页分类、场景分类等分类问题中,已然成为了机器学习研究领域的一个热点问题。针对多标记分类问题,目前已经涌现出了大量的学习算法,不管是基于k近邻的方法,还是应用支持向量机的方法,以及运用决策树的方法等,都可以将其归为两大类:算法适应法(algorithm adaptation methods,简称AAM)和问题转换法(problem transformation methods,简称PTM)。顾名思义,算法扩展法即在算法层面上解决多标记分类问题。同样地,问题转换法则是从问题本身出发,把复杂的多标记问题转化成“二类分类”问题,继而运用简单易实现的单标记学习算法去处理多标记分类问题。本文的绪论中简述了多标记学习的研究背景及意义,然后对多标记学习在国内外的研究现状进行了详细介绍;简要介绍了多标记学习的理论基础,包括多标记学习问题定义,多标记学习策略简介,以及多标记学习中常用的评估标准、多标记学习中的典型算法、数据集等理论知识。多标记分类问题的研究关键是如何有效利用训练好的分类器,将待分类样例划分到预先定义好的类别中,本文重点考察了多标记分类过程中标记相关性和属性特征选择这两个方面,主要研究成果有:(1)基于多标记学习中存在的标记相关性问题,提出一种基于邻域粗糙集的多标记分类改进算法。研究者在多标记学习中引入邻域粗糙集模型,构造了一个新的学习框架MLRS,运用邻域粗糙集找出给定示例的所有可能相关的标签和排除所有不相关的标签,根据邻域和不同标记间的关系为样例预测正确标记范围。但是,要是一个类在边界区域中因为正例过少,导致该类在通过计算得到的近邻中占据很小的比例,此时如果只看数量很容易造成错分。针对这个问题,本文对MLRS算法做了相应的改进,在边界区域,除了考虑在训练样例和各个不同类别的近邻样例之间计算欧式距离这个因素,还要考虑个数的问题,这两者之间可以建立起一个映射关系,然后用该映射关系预测测试样例类别标记,实验表明,本文提出的方法能较好地提高算法的分类性能。(2)基于多标记学习中存在的属性特征选择的问题,提出一种基于类属属性的多标记局部加权分类算法。一个对象具有多种语义信息,是因为该对象同时含有描述这些语义的属性。因此,对刻画示例与标记间关系的属性进行有效的转换,将使多标记学习过程更加可靠。LIFT算法是基于类属属性的多标记学习方法,本文针对其不足提出了一种新的基于类属属性的多标记局部加权分类算法LIFT-LOCW,该算法通过加权的方法提高了原算法的分类精度,根据实验结果可以看出,本文提出的方法拥有比其他多标记分类算法更好的分类结果。
其他文献
随着计算机处理能力和互联网技术的飞速发展,多媒体信息已经广泛地渗透到社会的各个领域中。众所周知,多媒体信息如:音视频、数字图像需要通过网络传输,在传输过程中信息容易
随着网络、图像处理以及通信技术的快速发展,智能视频监控成为计算机视觉领域一个新兴的研究内容,并且在各行各业都得到了广泛的应用,本文选取能够获得360度环境信息的全方位
图像分割是信息技术处理中的一个重要研究领域,也是现在技术研究中的热点和难点。随着现代技术的快速发展,图像分割技术也是快速的发展。但是,因为图像采集过程会受到外界因素的
随着信息技术的飞速发展,互联网上新的网页每天以惊人的速度在增长,这为满足用户检索信息提供了足够大的空间,但是想找到满足需求的信息也越来越成为困扰用户的一个问题。搜
本文首先介绍了移动Ad Hoc网络的基本概念、网络结构特点以及移动AdHoc网络路由协议的特点、分类等,并详细描述了几种典型的无线路由协议:DSDV协议、AODV协议、DSR协议以及TOR
随着计算机和互联网技术的发展,网络信息资源越来越多。为了使人们快速得到自己想要的信息,新的信息获取技术-搜索引擎技术应运而生,并得到飞速发展。但要想获得一个比较全面
近年来,可视化技术飞速发展,自1986年产生至今,在计算机图形学领域得到了广泛重视。很多研究学家开展了此类的研究工作,并取得了长足的进步。在国外,可视化技术已经作为一种
地下空间建造在地质复杂、道路狭窄、地下管线密集、交通繁忙的闹市中心,其安全问题是绝对不容忽视的。地下空间工程不管在施工期还是在运营期都要对其结构进行严格的数据监
为实现节能减排的战略目标,我国已启动了汽车、家电等产品的回收处置,由于回收处置涉及的产业链长、地域分布广,很多产品的处置方案直接影响资源再利用率,并且影响其对于生态环境
粗糙集理论是一种分析处理不完整、不精确、不一致信息与数据的数学理论方法。它是一种不需要额外信息的处理不确定信息的知识发现的数学理论。粒计算是研究多层次粒度结构的