基于聚类的文本迁移学习算法研究及应用

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:jshldd1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迁移学习能够将以往学到的知识迁移到新任务的学习中,帮助新任务的学习。当训练数据非常少时,利用已有的不同领域的大量带标签数据帮助其进行学习,这是迁移学习能够完成的任务。基于实例的迁移学习认为原领域中存在一部分实例是可以被重新利用的。提出一种基于聚类的文本迁移学习算法,利用聚类技术从原领域中寻找能够帮助目标数据学习的实例,用来帮助目标领域的学习。在TancorpV1.0数据集上进行了实验,证明该算法能有效提高目标数据的学习效率。垃圾邮件的特征会不断变化,已有的过滤器无法很好适应不断变化的垃圾邮件。重新训练过滤器需要大量新的垃圾邮件样本,而这些数据往往很难得到。同时,不论怎么变化,垃圾邮件的一些基本特征是不变的,这些基本特征可以从现有的垃圾邮件样本中得到。这种情况下,在垃圾邮件过滤中应用文中提出的迁移方法收到了很好的效果。
其他文献
随着计算机和网络的日益普及,越来越多的中小企业及个体希望能够采用信息化手段来管理经营数据,中小企业信息化软件(MIS)具有广泛的市场需求。中小企业客户消费特点和定位决
个性化推荐系统因其带来的巨大经济效益在电子商务网站得到广泛应用,但现有个性化推荐系统存在的问题却制约着它的发展。当前个性化推荐系统是基于用户和产品之间的相关关系,
本文基于情感的虚拟乐器音色建模的研究是计算机音乐技术研究的重要范畴,其目的就是利用计算机构建一组特殊的数字虚拟乐器模型,方便“写”出表达情感的乐曲。目前乐音的产生
语音是人与人之间相互传递信息最简易的途径。语音信号不仅查以传达人们所要表达的语义信息,还可以同时传递出说话人的情感状态。情感信息在人们感知外界事物和做出某种决策
在以资源共享为中心的分布式计算环境中,对资源的访问往往需要跨越多个安全域,如何完成多域间的访问控制,在陌生实体间建立信任关系成为当前信息安全领域的一个研究热点。传
支持向量机是基于统计学习理论的一种新型机器学习方法。支持向量机具有坚实的理论基础、简洁的数学形式、直观的几何解释,而且能够较好地解决小样本、非线性、维数灾难和局
当前,空间信息已经开始走向产业化,属于市场竞争和科技创新的热门话题。社会经济的持续发展,需要与自然资源的合理利用及生态环境的保护协调,对空间信息产业化的需求也就更加殷切
本文研究介绍了J2ME平台的特性和体系结构,包括MIDLET应用程序的生命周期、持久化解决方案RMS、联网技术以及安全体系结构等。本文研究重点是如何设计和实现基于J2ME/J2EE平台
本体在信息处理领域有着非常重要的作用。在过去的几年里,本体和本体论技术取得了巨大的发展,如基因本体已经发展到可以跨多个不同的医疗信息系统实现互操作,其提供了标准的
领域驱动设计思想自诞生以来就引起了人们的广泛重视,被认为是未来软件设计的主导思想。它完全颠覆了传统基于数据库设计的开发方式,强调了领域的概念,将软件系统的复杂性从