主动迁移学习模型的研究与应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:czwhczwh75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘领域的一个重要技术。在数据独立同分布的假设下,分类技术根据已有的带有类别标签的训练样本建立分类模型,并利用该模型尽量准确地对新的数据样本进行预测与分类。但是在实际应用中,满足独立同分布条件的训练样本往往相当缺乏,造成分类模型的准确率下降。近年来,为了解决训练样本不足的问题,学者们提出了主动学习和迁移学习两类方法。主动学习的目的是选取少量的具有代表性的数据样本,并由领域专家给这些样本标注类别标签,以使其成为训练样本。然后,主动学习可以用这少量的具有代表性的训练样本建立准确率高的分类模型,从而减少了对训练样本的数量的需求。另一类方法叫做迁移学习。迁移学习的目的是借助来自其他领域的,不满足数据独立同分布的训练样本,帮助目标领域建立分类模型,从而减少了对目标领域的训练样本的要求。 但是,在解决训练样本缺乏的问题上,主动学习和迁移学习各有不足。一方面,主动学习对训练样本的需求依然很大,造成某些领域获得训练样本的代价依然很高;迁移学习虽然可以以零代价获得训练样本,但是从其他领域迁移过来的训练样本有可能与目标领域分布差异很大,造成“负迁移”,即使得分类模型的准确率下降。为了更好地解决训练样本不足的问题,在这两类方法的基础上,本文提出了主动迁移学习的模型。本文结合主动学习的思想,解决负迁移的问题;并利用了迁移学习来降低主动学习中获得训练样本的代价。理论和实验证明本文提出的模型能有效地避免负迁移,提高分类的准确率,并有效地降低获得训练样本的代价。 另外,为了说明主动迁移学习模型的有效性,本文还以文本分类为例,分析了迁移学习的实际例子,并结合向量准换、特征选择、降维等技术,解决了文本分类所面临的训练样本严重缺乏所导致的分类效果不理想的问题。基于文本挖掘的实验也证明了该算法能有效地避免负迁移,并且有比较好的实用性与比较理想的分类效果。
其他文献
随着经济和社会的飞速发展,人们认识到环境的污染愈来愈严重,而其中水污染直接威胁到所有生物的生存。水污染已经引起了世界各国的重视。我国政府对水污染也非常重视,并将其
随着网络信息的爆炸式增长,如何帮助用户快速准确地定位所需信息就成了一个十分紧要的问题。通过对搜索引擎查询结果进行在线聚类可以解决这个问题。然而由于查询结果在线聚
电信运营商骨干网管理是整个运营商网络管理的核心。但是目前基于SNMP协议的网络管理系统存在着收敛速度慢、占用目标网络带宽大、拓扑发现精度低、故障定位难等缺点并且缺乏
随着计算机技术和人工智能的发展,许多行业的管理手段和生产方式逐步由人工转变成自动或半自动方式,自动识别系统发挥了重要的作用,尤其在不能直接获取仪表数据的化工、冶金等行
文章的工作内容主要由两部分构成,第一部分主要是前向安全性在代理签名方案中的应用算法研究;第二部分主要是前向安全性在聚集签名方案中的应用算法研究.第一部分改进了一般
竞争的加剧使得企业和组织致力于提高自身的管理水平和生产效率,随着信息技术在各领域中的广泛应用,越来越多的企业或组织开始利用信息技术来达成这一目标。其中工作流技术作
特征描述作为上下文推理预测的先行步骤,它对原始数据进行一定的语义抽象并为后续推理预测模型提供直接的输入数据,所描述的特征样本数据的优劣将直接影响到最终推理预测的结果
H.264/AVC标准是一种高性能的视频编解码技术,它是由国际电信联盟ITU-T和国际标准化组织ISO/IEC联合组建的联合视频组JVT共同制定的新数字视频编码标准。该标准在ITU-T标准中
随着云计算与大数据的快速发展,传统网络架构逐渐不能满足互联网业务的高速增长。‘SDN(软件定义网络)控制与转发相分离的核心理念可以为网络提供更好的全局视野和集中管控,
随着计算机技术和互联网的高速发展,计算机系统和网络的安全问题受到人们越来越多的关注。而计算机系统和网络安全的诸多威胁中,恶意代码无疑是危害最大的,这也成为网络安全