基于多示例多标签支持向量机不平衡网页分类

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:qj13143344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及,网络已经成为人们获取信息的主要途径,为了方便人们从海量网页中获取有用的信息,一种网页自动分类技术应运而生。鉴于多示例多标签(MIML)框架在歧义性学习方面独特的先天优势,以及支持向量机(SVM)卓越的学习能力,二者融合算法目前已成为机器学习领域的研究热点,但是这两者在处理不平衡网页的时候会有所欠缺。介绍了网页分类过程及其相关技术,描述了MIML框架理论,阐述了SVM发展历程、理论原理,并着重分析了在MIML框架下发展而来的MIMLSVM和MIMLSVM+算法。在样本集中,经常会出现某一类样本明显多于另一类样本的情况,这就得使样本集不够均衡。针对MIMLSVM算法在这种不平衡样本下分类效果差的问题,先使用过采样方法对样本集进行预处理,让样本集变得更加均衡,最终提高了分类准确率。现实生活中,无标签的的样本有很多,有标签的样本却非常少,数量众多的无标签样本可以提供整个样本空间的分布状况,进而弥补了少量有标签样本缺点。针对MIMLSVM+算法在这种不平衡样本下分类效果差的问题,提出了利用渐进直推向量机思想来处理无标签的样本,进而提高了分类准确率。最后,将改进后的训练算法应用到网页分类系统中,并对改进算法进行了实验对比和性能分析。实验数据表明,本文算法具有更高的分类效率和准确率。
其他文献
于2012年,在欧洲核子研究中心的大型强子对撞机上探测到了质量为125GeV左右的中性希格斯玻色子,它是标准模型所预言的基本粒子中最后发现的一个,它的发现标志着标准模型所预言的所有基本粒子全部被找到,希格斯玻色子一度成为物理粒子研究的热点之一。由于希格斯玻色子极易衰变,在实验上很难探测到,所以至今仍存在一些关于希格斯玻色子的实验现象无法探测或探测到的某些结果仍存在较大误差,探测器上探测到希格斯玻色
通过不同的条件对比试验,优选出合理的工艺路线和工艺控制参数,将实验室研究成果进行规模扩大,通过中试验证实验室所确定的工艺流程及工艺条件,并对其进一步改进和优化;同时,
大气压等离子体射流可以产生富含活性粒子的等离子体羽,在许多领域都有很大的应用潜力,比如污染治理,表面改性,流动控制等。等离子体羽的形貌决定了其中活性粒子的空间分布,是等离子体射流的重要参数之一。然而针对等离子体羽形貌的研究还比较缺乏。针对于此,本论文利用不同频率的正弦电压激励等离子体射流产生了几种不同形貌的等离子体羽,并对其放电特性和形成机制进行了研究。利用频率为数千赫兹的偏置正弦电压激励氩气等离
随着我国对燃煤电厂污染物排放标准的要求越来越严格,循环流化床机组利用SNCR脱硝系统对NO_X进行脱除的过程中,在实现NO_X排放浓度达标的同时也带来了一些问题,比如脱硝控制
在当前人类所面临的环境和能源问题中,氧化物半导体扮演着重要的角色,在太阳能及化学能转化、生物能源制备、有机废料处理、二氧化碳的收集与活化转化等领域应用广泛。ZnO作
在进口跨境电子商务市场竞争逐渐激烈的环境下,进口跨境电商企业为争夺市场份额以各种方式打起“价格战”,如折扣、满减、降价等。除了透明的价格竞争之外,免费配送作为一种
炭材料由于具有高比表面积、高导电性和优秀的物理化学稳定性被广泛地应用于超级电容器电极材料,然而炭材料的容量主要来能量密度有限的双电层电容。相比而言,赝电容材料可以
掠蛛亚科Drassodinae隶属于蛛形纲Arachnida、蜘蛛目Araneae、平腹蛛科Gnaphosidae。目前,掠蛛亚科全世界已知7属237种,中国仅记载掠蛛属Drassodes(19种)和神掠蛛属Sidydrassodes(1种)。全文共记述了掠蛛属Drassodes 31种(含10新种和2中国新纪录种),神掠蛛属Sidydrassodes 2种(含1中国新纪录种)。本文中详细介绍了中
金属棒材在航空航天、汽车、船舶等行业有许多应用,根据不同的使用要求,有时会对棒材的直线度有一定的要求,需要对棒材进行矫直。棒材在矫直过程中发生弹塑性变形,所以对棒材回弹的预测产生了很大麻烦。为了准确预测棒材在矫直过程中的瞬时回弹,对棒材的基本性能,弯曲规律以及应力应变分析就显得十分重要。本文的主要研究内容如下:建立理想弹塑性模型,对金属棒材在弯曲条件下应力-应变进行分析,分析了棒材曲率变化与棒材变
昆虫的嗅觉系统在适应环境方面起着不可替代的作用,对它们的行为有着重要的影响。长足大竹象(Cyrtotrachelus buqueti)危害各种丛生竹类,是一种重要的钻蛀性林业害虫,主要分