基于哈希的快速多标记学习算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wyt_2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的监督学习框架中每个样本仅属于一个类标记。然而,在现实中的许多应用环境中,一个样本往往并不仅仅属于单个标记,而是同时属于多个标记,对这种问题进行学习的框架被称为多标记学习。近年来,许多多标记学习算法被相继提出,并成功应用到许多领域,取得了优良的分类效果。然而这些方法通常是耗时的,无法处理大规模数据。随着大数据时代的来临,深入研究快速多标记学习算法具有重大的现实意义。本文首先研究了多标记学习的方法,对相关算法进行了总结,并分析了它们的优缺点。然后将哈希学习的思想融入到多标记学习算法,提出了一种基于哈希的快速多标记学习算法HashMLL。该算法在k近邻算法的基础上引入了局部敏感哈希算法,可以快速进行近邻查找,提高多标记学习的效率。另外,哈希学习会造成一定的性能损失,因此,本文还提出了一种基于MinHash的全局标记相关性计算方法来提高算法的准确度。同时,本文提出的HashMLL算法同时具有较强的泛化能力,可以利用其他的哈希方法进行近邻查找以及引入更准确的标记相关性等多种手段来提高算法的性能。本文在多标记学习领域中多个公开的数据集以及本文经过提取得到的宏基因组数据集上分别对HashMLL算法进行实验仿真。理论和实验分析表明,HashMLL算法可以同时取得较好的准确度和较高的学习效率。而且,相比其他多标记学习算法,HashMLL算法可以在保证一定的准确度前提下,大大提高多标记学习算法的学习速度,在准确度和学习效率之间得到了较好的折中。
其他文献
软件测试是保证软件质量的重要手段,也是软件开发过程中的一个重要环节。针对传统手工测试速度慢、效率低等缺点,为了提高软件测试的效率,自动测试软件技术应运而生。目前,软
随着科技的进步,宽带通信网络有了巨大的发展。但企业及个人用户对计算机网络应用的不断增多以及点到点多媒体流和基于IP的实时业务的快速增长使得网络通信量猛增,现有网络已
随着新时代电信行业的快速发展,智能网和软交换技术在通信系统中的应用日益深入,而呼叫业务功能的实现是软交换的重要目的之一,因此建立一个优秀的呼叫模型在考虑到对基本通
国际电信联盟于2005年发布的物联网报告中正式提出物联网的概念,“所有物体都可以通过Internet主动进行信息交换,实现任何时刻、任何地点、任何物体之间的互联,实现无所不在
由于高层建筑群和人口密集的室内环境的出现,无线通信环境变得越来越复杂,室内无线信号覆盖对天线的带宽、体积、增益也提出了更高的性能要求。因此,研制一种结构简单、性能
无线传感器网络由大量随机部署的微型传感器节点组成,节点追求小体积、低成本,采用电池供电,且一般不能续电。节点能量的消耗状态决定了网络寿命的长短,能量的高效利用是无线
随着数字多媒体技术的快速发展和用户需求的不断提高,三维视频应用逐渐成为一个消费领域的潮流,获得越来越多的关注。三维视频,相比较与传统的二维视频,增加了真实场景的深度