【摘 要】
:
信息技术的不断发展使得世界变成了信息的海洋,很多有用的信息被大量的垃圾信息所淹没,如何从这些信息自动分类出有用的信息将是一个重要的课题。文本作为信息的主要载体,具有明
论文部分内容阅读
信息技术的不断发展使得世界变成了信息的海洋,很多有用的信息被大量的垃圾信息所淹没,如何从这些信息自动分类出有用的信息将是一个重要的课题。文本作为信息的主要载体,具有明显的现实意义,而中文作为使用最多的语言之一,其重要性不言而喻。目前大多数中文文本分类都使用传统的模式,先对训练样本学习得到分类器,再对未知样本进行分类,二个过程相互独立。但按照上述方法得到一个满意的分类器需要大量的训练数据,成本耗费比较高,为了进一步减少人工标记成本,提高分类的效果及加快训练的速度,采用主动学习的方法是一种比较好的途径。但目前存在的几种基于支持向量机(SVM)的主动学习方法都是简单的把分类方法与主动学习过程相融合,没有从选择策略上进行改进,为此本文提出了两种改进的方法:
1、基于加权值的主动学习算法:
基于SVM主动学习算法对训练数据都没有提出明确的要求,但是事实上SVM对训练数据的要求比较严格,需要保证正类与负类样本的均衡性,只有这样才能得到比较满意的分类性能。不平衡的数据将会导致超平面向样本较少的方向偏移,降低分类器的性能。提出了一种折中考虑最小决策值和样本平衡性之间关系的加权主动学习算法。
2、基于期望间隔的主动学习算法:
SVM分类器间隔的确定是依据已标记的样本集。而在主动学习的初期分类间隔被扩大了,因而主动学习的目的就是依据当前样本集,选择那些能最快的缩小当前分类器间隔的样本。提出了一种基于期望间隔的主动学习算法,较快的缩小分类器的间隔。
对上述两种方法分别进行实验,结果表明,基于加权值的主动学习和基于期望间隔的方法都能选择信息量较多的样本,增加学习的效率,降低了成本,论证了可行性与优越性。
其他文献
自主型水下机器人(AUV)能在非结构化的、不确定性的海洋环境下完成多项水下任务,任务规划起着关键的作用。任务规划不仅能根据下达的使命,规划出一个有效的任务序列,而且能对
近几年,三维模型被广泛的应用到游戏、工业制造、虚拟现实等领域,人们对三维模型的重用越来越感兴趣。本文的主要研究内容是三维网格模型的编辑方法,希望通过对现有模型的编辑变
海关在世界经济中发挥重要作用和贸易。在无重大破坏事件发生时,他们的工作被视为一个有效的供应链的瓶颈。然而,在恐怖活动的事件,焦点转移到他们那里,他们被赋予很高的期望来防
随着航空航天工业技术的发展,降落伞之类的大变形柔性体的应用越来越多,但是针对其工作状态的受力情况的测量和分析一直是一个技术难题。大变形柔性体的形变过程是一个短时间
统一建模语言(Unified Modeling Language) UML简洁、直观,便于建模人员之间的交流与沟通,适用于软件开发的各个阶段。然而,UML缺乏精确的形式化语义,难以对它所描述的系统进
随着多核处理器的普及,在桌面电脑和笔记本电脑上进行并行程序设计已成为可能。然而,在并行概念尚未普及的今天,传统的串行计算软件只能导致多核的闲置,只有在算法设计及软件开发
可靠性是衡量无线网络性能的重要指标之一。近年来,随着无线网络技术的日渐成熟及对传输质量要求的不断提高,如何保证无线链路的可靠性和安全性、提高现有无线网络资源的利用率
伴随着互联网和云计算的蓬勃发展,数据中心的规模不断增长,数据中心内的业务复杂多样,网络流量快速增加,因此对底层的网络管理提出了更高的要求。SDN作为新兴的网络范式,具有
由于NAND flash的物理特性,NAND flash面临垃圾收集、损耗均衡和坏块处理三大挑战。因此,NAND flash需要采用不同的存储策略来解决这些问题,而使用专门的flash文件系统是嵌入
在竞争不断加剧的背景下,电子商务网站不断利用个性化推荐技术提高新用户的兴趣和老用户的忠诚度。协同过滤(CF)作为推荐系统中最成功的一项技术,它的能力已经在不同的电子商