基于DE-SVM的文本分类方法研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:xiaogengwhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在分类领域中,SVM因能在样本有限的情况下达到较高的准确率,并能通过将不可分样本映射到高维空间解决非线性可分问题而备受研究人员青睐。在SVM分类中,核函数和参数的选择对分类效果影响极大,但目前并没有一个统一的参数选择方法,SVM分类的参数选择仍处于经验性选择阶段。针对SVM以上不足,本文主要研究了差分进化算法,设计了一种基于自适应组合优化差分进化的SVM参数寻优算法,并将该算法应用于新闻文本的分类中。本文的具体研究工作如下:(1)研究SVM参数优化方法。通过研究核函数类型和参数取值对SVM分类性能的影响,分析了传统参数选择方法的不足,设计了一种基于差分进化的参数选择算法,利用差分进化算法寻找SVM的最优参数。(2)设计一种改进的差分进化算法。针对标准差分进化算法易早熟收敛这一问题,本文设计了一种自适应组合优化差分进化算法(ACODE),并采用基准函数测试该算法的有效性。实验结果表明,改进的差分进化算法寻优精度更高,收敛更快,可避免算法陷入局部最优。(3)设计一种基于自适应组合优化差分进化的SVM参数寻优算法(ACODESVM)。由于SVM的参数取值对分类性能影响较大,因此,本文将改进的差分进化算法应用于SVM的参数寻优中。最后通过采集搜狐新闻文本构建模型进行文本分类,结果表明ACODE-SVM算法的分类精度可达82.5%,对比传统寻优算法,该算法可有效提升分类效果。
其他文献
随着知识图谱的兴起和发展,资源描述框架(RDF)作为灵活的图数据模型,已被广泛认可作为描述大规模知识图谱的标准数据格式。在RDF知识图谱上实现高效、可扩展的查询操作已经引
调度问题是一类具有广泛应用背景的组合优化问题,调度的主要目的是对有限资源的合理分配,以获得最大的经济效益。随着调度问题的复杂化,已经无法仅仅依靠经验来解决调度问题,这时候,一个高效的调度算法显得尤为重要。由于调度流程和环境的复杂化,调度问题不断多样化,且演化出多种具有不同特征的调度问题。其中,批调度问题就是对经典调度问题的扩展和延伸。批调度问题是将一定数量的工件同时使用批处理机进行加工的问题,广泛
蛋白质在亚细胞中的位置与其功能有着密切的关系,这使蛋白质亚细胞定位成为生物学中的一个研究热点。随着海量生物数据的发现,传统生物实验不能满足要求,计算机的高效率帮助
随着集成电路工艺特征尺寸不断减小,工作速度不断提高,各类电路系统对时钟电路的性能要求越加苛刻。时间数字转换器(Time to Digital Converter,TDC)作为一种时间测量电路系统,对时钟电路在抖动、分相均匀性、占空比以及延迟时间精度等方面的要求较高。延迟锁相环(Delay Locked Loop,DLL)因其闭环负反馈特性,具有较高的工艺、电源电压以及温度(Process Temp
氮元素是一切生物所必需的元素之一,是组成生物的重要元素。在海洋中,生物生产力主要是由氮元素限制的。因此,氮循环在海洋中扮演着重要的角色。固氮作用是指固氮微生物将生
DNA序列是由A、G、C、T类型的碱基所组成的一串携带着遗传基因的DNA分子的一级结构,隐藏着丰富的信息且具有复杂的生物学意义。从DNA序列中挖掘并解读其结构和功能,是一个重
原生生物是海洋微食物网的重要组成部分,异养微型鞭毛虫(HNF)、含色素真核生物(PNE)和浮游纤毛虫又是原生生物的重要组成部分。HNF是异养细菌和微微型浮游植物的主要摄食者,
随着在线业务交互的增加和互联网的迅速发展,信任数据在推荐系统中得到了广泛的应用。信任数据可以提高推荐系统的预测精度,帮助用户找到相关信息。然而,一方面,用户很难获得
互联网技术的诞生和快速发展,使信息和数据呈爆发式增长,用户需要不断加大系统硬件投入以提升自己的计算能力和存储空间,但这种方式的服务能力有限、效率低下。此外,照高负载
误读是阅读过程中难以避免的普遍现象,旧有的阅读理论对此持否定态度,认为是错读,曲解了文本的本义;现代的阅读理论对之则肯定有加,认为它是一种创造性的解读,具有个性化、新