基于图结构特征的多示例学习算法研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:hjklmijk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习蓬勃发展的大趋势下,多示例学习问题的研究越来越深入,在现实世界中的应用也越来越广泛与多元化。目前,多示例学习的主要研究方向为:在满足算法能对未知标记的包进行正确分类的前提下,提升模型的性能。包中示例间相关性和代表性示例对优化模型的性能至关重要,因此,利用图数据结构表示每个包中的示例关系是解决该问题的主流思路之一。根据多示例学习研究的层面可将已有的研究划分为基于包特征和基于示例特征2类,而基于示例特征的多示例学习又可分为基于向量特征和图结构特征2类。本文在分析这几类研究方法优劣的基础上,从挖掘示例间相关性和直接在包图结构上构建图分类器2个层面出发,提出了多示例学习算法MIL-GCC和MILFTSBN,能在不同的应用场景下提高模型性能。论文的主要工作及创新点如下:(1)提出了一种基于聚类的图卷积多示例学习算法(MIL-GCC),利用图结构表示包中示例间的相关性,并在包图结构上直接建立图分类器,用以解决随机选择包中示例构建图结构和模型分类准确率不高的问题。首先通过聚类获取每个包中的超示例,作为包图结构中的节点;然后挖掘超示例间关系构建包图的边,确定包图结构;最后利用图卷积对包图节点重要度分数进行学习,筛选重要度分数排序前Top N的节点以及由这些节点组成的包图结构作为模型分类依据。(2)设计了一种基于DFS的包图结构约简算法。首先,将标号图中影响度最高的节点作为最大频繁项子图的根节点;然后,利用深度优先搜索(DFS)算法依次遍历与根节点相关的边对应的节点,获取当前图结构的支持度,筛选高于预先设定的最小支持度阈值的图结构作为频繁项子图;最后,根据新增频繁项子图相邻节点时支持度的变化范围来判断当前频繁项子图是否是最大频繁项子图,并输出符合条件的最大频繁项子图集合,用于图分类模型的输入。(3)提出了一种基于贝叶斯网络的频繁项子图多示例学习算法(MILFTSBN),在使用图结构表示包中示例间相关性的基础上约简包图结构,用于降低复杂的包图结构对生成模型的影响,提升模型的分类准确率。首先,通过贝叶斯网络自学习每个包中的示例权重,筛选出权重值高于设定阈值的示例作为包中的代表示例;其次,将这些代表示例视为包图结构中的节点,代表示例间的邻接关系作为边,自定义节点与其他节点的重要程度作为边的权重,构建包图结构;然后,利用基于DFS的包图结构约简算法对包图结构进行约简,生成最大频繁项子图,用以消除与分类无关的包图结构信息。在公开数据集上对本文提出的算法进行了实验验证和分析。实验结果表明,MIL-GCC与MIL-FTSBN可提高分类器的分类准确率,有效优化模型的质量。
其他文献
人脸识别是计算机视觉和人工智能领域最重要的研究方向之一。随着大数据时代的逐步到来,各大媒体数据有了井喷式的增加,人脸识别的需求也在随之增加。传统的人脸识别技术只能解决小规模人脸识别问题,在面对大量人脸图片时的实时性非常低,而且在单机环境下训练效率低下、人脸数据存储困难。因此,如何能够快速、准确的从大量的人脸图像中识别出一个人的信息成为当前人脸识别技术的主要研究方向。为解决以上问题,本文进行以下研究
直播作为一项新兴娱乐模式,越来越受到用户的欢迎。随着直播的发展与普及,大量实时的直播在线评论——弹幕随之产生。这些弹幕不仅与直播的内容相关,而且具有在线实时性、语言简略与互联网化的特征,容易产生一些新的网络流行词汇;同时,用户间的实时交互影响彼此的表达方式和情绪。因此,弹幕一般承载着用户的各种观点,能够及时准确的反映用户在观看直播时的情感状态。对弹幕文本进行情感分析,挖掘出具有价值的情感信息,能够
透明导电电极是有机发光二极管(OLED)的重要组成部分,其性能直接影响OLED的发光效果,因此,研究电极的性能具有重要意义。针对氧化铟锡存在易脆、铟资源稀缺等问题,提出一种WO3(三氧化钨)/Ag(银)/PEI(聚乙烯亚胺)/Cu SCN(硫氰化亚铜)(WAPC)叠层结构电极;采用传输矩阵理论模拟电极的光学性能,通过旋涂法和真空蒸镀法制备WAPC叠层透明电极。主要内容包括:(1)采用传输矩阵理论模
从上世纪90年代末以来,随着高校的大扩招,高等教育由精英阶层逐渐走向大众化。我国进行正式备案招生的高等院校达到了2914所。随着高校的大扩招,全国各地利用此契机纷纷建设大学城、文教区[1],目前国内规划建设的大学城多达50多座,涉及21个省、市,大学城成为城市的重要组成部分影响城市形态和功能布局。在教育产业化、后勤社会化的大背景下,我国大学城规划建设明确提出了开放性和共享性的理念,但新建的校园和城
随着我国景观照明工程的飞速发展,近代建筑夜景经济价值也逐渐被发掘出来。借助灯光,近代建筑得以在夜间延续其“生命力”,使城市的夜晚变得更加丰富多彩。本文将汉口地区的近代西式建筑景观照明研究对象,以主观评价的方式进行近代建筑夜间景观照明效果主观评价研究。本文在绪论部分对我国近代建筑以及城市景观照明的发展历程进行论述,并对目前国内外西洋风格历史建筑的夜间景观照明相关法规和理论进行梳理,列举了当下与我国近
目前,电容式电压互感器(Capacitor Voltage Transformer,CVT)主要用于为电力系统的计量、保护和控制装置提供可靠的低压信号,且工频条件下具有较高的准确度。然而,由于CVT内部储能元件和非线性元件的存在,CVT的暂态响应误差大,难以满足电网高幅值、宽频域暂态电压的测量需求。因此,需建立准确的CVT电磁暂态物理模型以实现CVT在复杂暂态下的频率响应模拟,为电力系统电能计量和
区域供冷供热系统为可再生能源的应用提供了条件,有助于推动中国能源结构转型,降低温室气体排放,实现可持续发展的长远利益。但区域供冷供热系统在实际运行中存在着初投资大、运行费高的问题。基于以上背景,本文对区域供冷供热系统的一次管网机房阻力、二次管网管径以及管道绝热厚度进行优化研究,提出优化措施和优化方法,编制管网优化程序,从而提高区域供冷供热系统的经济性,降低设计难度,推动区域供冷供热系统的发展。冷热
七叶一枝花(Paris polyphylla var.Chinensis)是百合科重楼属植物,其根状茎为中药重楼的正品药源之一。七叶一枝花的根状茎具有多种活性成分,其中最重要的是重楼皂苷。当前,我国制药工业对重楼皂苷的市场供需缺口较大,这是因为包括七叶一枝花在内的多种野生重楼资源已濒临枯竭,且其人工繁育的周期长。为了缓解七叶一枝花的资源危机,满足制药工业对重楼皂苷的需求,利用合成生物学手段进行人工
2018年国家机构改革方案的正式颁布,自然资源部的正式成立,国家对自然资源管理走向了全面集中的新时代。在当下自然资源管理体制的环境下,国土空间规划体系的重构已然成为当下规划现实工作的紧要任务。城市绿色空间是作为城市生产、形成、发展的自然环境本底,对城市具有十分重要的“生态-生产-生活”复合支持作用,承担着控制城市增长和城市生态保障的重要作用,是城市建设发展中十分重要的一部分。且绿色空间规划体系也是
组播被广泛应用于IPTV、网络直播等服务,但当前网络规模不断扩大,多样性应用服务与日俱增,基于传统网络架构的组播技术已经难以满足网络发展需求。软件定义网络(Software-Defined Networking,SDN)与生俱来的全局视角和可编程等特性,使组播管理变得更高效更灵活。传统组播中的路由器必须维护大量的组播状态信息,存在可扩展性差、组播协议复杂、路由收敛时间长等一系列问题。位索引显式复制