【摘 要】
:
随着互联网的发展,有越来越多的信息以文本的方式存储在网络上,成为人们获取信息的来源。当人们面对网络——这个巨大的文本库,急需一种高效的技术手段来帮助人们对这个文本
论文部分内容阅读
随着互联网的发展,有越来越多的信息以文本的方式存储在网络上,成为人们获取信息的来源。当人们面对网络——这个巨大的文本库,急需一种高效的技术手段来帮助人们对这个文本库中的文本进行整理,对其中的信息进行挖掘。文本挖掘应运而生。文本分类是文本挖掘中一项重要的技术,在现实中也有着广泛的应用。在文本分类中,二分类问题有着重要的地位。许多现实问题,例如垃圾邮件的过滤,国家敏感信息的删除,在本质上都是一个文本二分类的问题。除了文本数量的巨大,互联网上的信息还有一个重要的特点,那就是它的内容更新速度快。在互联网上,每时每刻都有新的内容出现,并且很可能在短时间内成为人们关注的焦点。在这种情况下,传统的机器学习方法都面临一个严峻的问题,那就是训练数据与测试数据不再服从相同的分布。从网上搜集到数据,对这些数据进行了辛苦的标注,再在这些数据上训练出一个分类器,而当将这个分类器应用于现实时,却发现原来所用的数据已经过时,面对新的内容,分类器已失去它的意义。迁移学习能够有效解决这个问题。它不要求训练数据与测试数据服从相同分布,而是试图尽量多的去利用那些看起来已经过时的旧数据,帮助少量的新数据去建立一个能够在新数据上有很好表现的分类器。目前已经有越来越多的研究者参与到了迁移学习的研究当中。本文以文本二分类问题为背景,对迁移学习在文本分类中的应用进行了实验。在实验中发现了现有特征提取算法的不足,问题产生的原因就是在大多数使用迁移学习算法的情况下,训练集中普遍存在数据偏斜的问题。本文主要研究了在文本分类过程中,如何同时利用新数据与旧数据,进行特征提取,才能够更好的适应迁移学习算法,使得文本分类获得更好的效果。在特征提取的步骤中,对已有的算法作出了改进,提出一种基于二次提取的方法,经过试验证明,改进的算法有效的提高了分类的准确率与召回率。
其他文献
作为集成电路封装领域不可缺少的优质材料—球形石英粉,随着移动互联网的发展,其需求在快速增长,同时它在特种陶瓷、航空航天、精细化工,光学器件等众多领域的应用也受到广泛的关
中国传统文化中尊老敬老思想渊源流传,最初“老”表示年长、年老,随着语言的发展与演变,经扩展引申,其义项增多,从它的基本义“年岁大”“年长”直接转移引申出来的有“陈旧
目的 :检测人缺血脑组织中TNF α和IL 1β的表达。 方法 :将 13例脑梗死的死亡病例按发病时间分成 <2d、3~ 5d、 >5d3个组 ,以非缺血侧半球作为对照 ,用免疫组化染色法检测缺
随着工业经济的高速发展,弹簧作为一种重要的机械基础零部件被日益广泛的应用在工业领域,而且对弹簧成形精度、几何精度及空间形状的要求也越来越高。由于受到各种技术条件的
伴随着经济的发展和进步,我国各个行业对于电力的需求量不断增加,在这种形势下,如何完成对电力系统的全面更新至关重要,电力系统发展中要最大限度的保证社会发展以及生产的需
笔者通过参与由清华大学教育研究院带领组织的NSSE(National Survey of Student Engagement)-China即"中国大学生学习性投入调查",发现大学生课堂学习行为是影响本科教学质量
移载机械作为基础装备,被广泛应用于生产、生活的各个领域。由于现代物流对于活动空间及生产中对于运动精度和灵活性方面的要求越来越高,要求新型的移载机械能满足小空间运动
会计硕士专业学位属于会计学专业应用型硕士研究生,由于出现时间较短,缺乏培养经验,对其知识结构和能力的培养要求比较模糊。因此,从会计硕士的培养目标出发,对其知识结构与
个别学生在学习过程中,由于各种因素导致了学业成绩落后于大多数学生,成了"后进生"。教师为了提高这部分学生的学科成绩,需要倾注大量的时间和精力进行"辅差"。目前,小学数学
通过热处理改善合金化程度较低的中高强可焊Al-Zn-Mg系铝合金的抗应力腐蚀性能并保持合金强度是尚待研究的问题。本文研究了固溶后降温预析出调控7A52和7039合金晶界和晶内析