多示例学习的包层次覆盖算法及其应用研究

被引量 : 0次 | 上传用户:wik2pwerq32
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多实际问题中,待分类样本的标记是不确定的。本文研究的是机器学习中从有歧义的样本中进行学习的一个框架,即多示例学习。在多示例学习中,每一个样本被称做一个包,每个包可以含有任意数量个示例。如果包中包含一个或多个正示例,那么这个包就是正包;只有在包中所有的示例都是反示例的情况下,这个包才被称为反包。由于示例本身是没有标记的,因此,在多示例问题中,每一个正包都是一个有歧义的对象。正包中包含的大量假正例是多示例学习问题之所以难以解决的与生俱来的困难所在。为了排除多示例数据集的正包中大量的假正例,提高分类精度,本文提出了一个新的多示例学习包层次覆盖算法,即MICkNN。覆盖算法的学习结果是一系列的球形领域,在每一个球形领域中只含有同类样本,覆盖算法的这一特性可以帮助我们重新组织多示例数据集中包的结构。概括地说,为了排除正包中的假正例,首先使用覆盖算法生成的球形领域作为新的包结构,对原有的多示例包结构进行重新构造,从而提高多示例样本在新的特征空间中的可分离性。然后,使用包层次的κ近邻算法排除正包中大量的噪声并预测被测试包的类别。在药物活性预测数据集和基于内容的图像检索数据集中的实验表明,MICkNN算法具有很好的性能。本文的主要内容如下:1.介绍了多示例学习的概念,分析了多示例学习与传统机器学习框架之间的区别。列举了多示例学习的主要应用领域,并梳理了多示例学习的发展过程和研究现状。2.引入多示例问题的定义,介绍了几种经典的多示例算法的主要思想。将已有的多示例算法分为包层次算法和示例层次算法两类,并指出已有算法的不足之处和多示例问题难以解决的固有困难所在。3.提出多示例学习的包层次覆盖算法MICkNN。分析了使用领域覆盖算法重新组织多示例数据集的可行性,并指出了使用领域覆盖算法可以帮助包层次的κ近邻算法排除正包中大量的假正例。4.将提出的MICkNN算法应用到药物活性预测问题中,并介绍了药物分子包的生成方法。在基准的和人造的麝香分子数据集上进行了实验。从分类精度和运行时间两方面比较了所提出MICkNN算法和经典的多示例算法。5.将提出的MICkNN算法应用到基于内容的图像检索问题中,并介绍了图像包的生成方法。在COREL数据集中的三个子类Fox, Tiger和Elephant上进行了实验。
其他文献
近年来,我国金融体系改革不断深入,企业融资渠道不断创新。然而,不可否认,银行贷款仍是我国企业融资的最主要方式之一。银行贷款具有控制企业自由现金流、向外界传递积极的公
电能在我国的社会和经济发展中起着举足轻重的地位,为实现电能的合理开发与利用,我国正在推行智能电网的建设,而电能表作为智能电网的终端,对电能的统计和管理起着非常重要的作用
基于数据的机器学习方法以客观存在的事物为对象,研究数据的客观规律,实现数据的分类和预测。极限学习机作为一类机器学习方法,以简单易用、有效的单隐层前馈神经网络学习算
加快城乡统筹发展,加速城市化进程,推动社区和社区服务体系建设是当前人民群众密切关注的重要问题,也是我们党和政府十分关心的重点工作。党的十七大报告对城乡社区建设作了
<正>2017年10月,当地时间19日晚上,第44届世界技能大赛在阿布扎比闭幕,上海城市建设工程学校园林绿化专业学生潘沈涵摘得花艺项目金牌;四川交通职业技术学院汽车工程系学生杨
长期以来,对科学地评价、继承传统放牧制度中的科学合理成分,有认识上的偏见和误区,其中包括放弃了有利于牧草再生的轮牧制度,维系与草原共生的畜群管理制度,保持草原生态完整性的
目的分析腹腔镜联合纤维胆道镜治疗老年胆总管结石对患者及胃肠功能的影响。方法 50例老年胆总管结石患者,随机分为对照组与观察组,每组25例。对照组实施传统开腹术,观察组实
在火炮发射过程中,抽筒子在冲击载荷作用下,经常产生疲劳断裂。为了实现有针对性的预防性维修,提出了一种冲击载荷作用下基于协同仿真技术的不规则零部件疲劳寿命预测方法。基于
在农村城镇化水平和工业化进程的不断加快背景下,土地供需矛盾日益激化,已成为影响我国经济社会可持续发展不可忽视的瓶颈问题。而且由于历史的原因,自发形成的农村居民点分
随着现实世界中文本、图像、网络和基因数据等高维数据的广泛出现,人们发现在数据挖掘过程中并不是所有的特征都是重要的和有用的,在这类数据集中,有些特征是冗余的甚至是不