基于图数据的主动学习方法的多标签分类研究与应用

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:xiaopanzi250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签的数据类型是比单标签的数据的应用更为广泛的数据类型。相对的,多标签数据的分类比单标签数据的分类更为复杂且耗费更高,然而其训练的分类器预测的准确率比单标签的要低得多。所以我们需要为多标签的分类提出一种低耗费却有高的准确率的分类算法。为了达到这样一个目标,我们的多标签数据分类中引入主动学习,为了使我们的方法应用更为广泛,也将训练的数据类型定为图数据。本文引入一种单标签的图数据训练分类器的方法:局部和全局的一致性方法(LLGC)。通过结合多标签的图数据的标签特性,我们提出了多标签的局部和全局的一致性方法(ML-LLGC)。我们为多标签图数据训练出多个相互独立的分类器,以获得我们方法所需的多标签图数据的分类器。本文利用一种复杂度:直推式的拉德马赫复杂度,并使之为优化工具关联我们的分类器的泛化误差。以我们所求出的分类函数为变量建立直推式的拉德马赫复杂度模型,通过求解复杂度模型以及经验的直推式的拉德马赫复杂度,获得泛化误差与经验的直推式的拉德马赫复杂度关系式。当我们获得最小的经验的直推式的拉德马赫复杂度的同时,也将获得最小的泛化误差的上界值。因此,本文引入了詹森不等式、柯西-施瓦茨不等式以及一种顺序优化算法对经验的直推式的拉德马赫复杂度进行了优化。在对经验的直推式的拉德马赫复杂度最小化的同时获取具有最大信息价值的未被标记的数据节点,并人为的将这些节点进行标记以用于训练多标签的分类器,这是一种迭代的计算过程亦是主动学习的求解过程。最终,我们将获得具有符合我们要求的泛化误差界的分类器。本文以一种医学试验数据为我们的实验数据,我们给出的方法通过该组图数据训练了多标签的分类器,并在测试数据中预测了各个数据的标签集,获得了百分比均低的汉明误差与1-误差率。本文还为另一种多标签的分类方法(这种方法构造的分类器的输出是最优的,却并不实用)做了实验。该方法主要用于与我们提出的方法进行对比。对比这两种方法的实验结果表明,本文所提出的多标签图数据的分类方法在具备低耗费这一实用性的优点外,同时其训练的多标签的分类器还具有高的预测精确度。
其他文献
作为整个电力系统结构组成中的重要组成部分--供配电系统,其任务就是对用户所需电能的供应和分配。供配电系统工作完成的好坏将直接影响到用户的电能使用,因此,保证电能使用过程
人体皮肤是身体内部与外界的天然屏障,能否通过对皮肤生理参数的测量来准确地掌握人体机能的变化是当今医学界的一个重大研究课题。所以测量人体皮肤指标,分析人体可能患有的病
随着科学技术的发展,机器人的应用越来越广泛。然而,大部分的机器人只是为特定的工作环境而开发的,一些更多、更加复杂的任务需要多个机器人的协作才能完成,每个机器人都有自身擅
磁共振成像(Magnetic Resonance Imaging,MRI)系统是目前最先进最昂贵的医学诊断设备之一。谱仪是其中的关键部件,价格昂贵。目前国内已有多家磁共振系统集成商,但MRI谱仪技术仍
近年来,复杂网络受到来自物理、生物、数学、计算机、经济等不同学科领域的研究者越来越多的关注,已经成为一个研究热点。利用统计分析方法,结合计算机模拟仿真技术,本论文对复杂
个性化信息服务旨在解决按照用户的需求传递信息的问题。随着信息科学与技术的发展,信息已经渗透到人们生活的各个方面。移动电话的普及和移动数据业务的发展带来了移动网络信
国际EPC总承包项目,即设计—采购—施工(Engineering,Procurement and Construction),是一种由承包商进行全部设计、采购和施工,提供一个配备完善的设施,转动钥匙(Turn key)即可运
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库的应用(女NSBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。 以往词语对齐方法对语言学信息在对齐
月球车是我国月球探测二期工程中最重要的组成部分,运动规划则是月球车具备自主能力的根本保证,也是月球车实现自主控制的难点。本文以六轮独立驱动的摇臂式月球车为研究对象,在
现场总线是自动化领域的计算机网络,是当今自动化领域技术发展的热点之一。它以总线为纽带,将现场设备连接起来成为一个能够相互交换信息的控制网络,是一种双向串行多节点数