一种核心子集选择训练的大规模中文网页分类方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：rstkjs123

【摘要】

：

针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包

【作者】

：

傅向华刘国陈冬剑

【机构】

：

深圳大学计算机与软件学院,

【出处】

：

小型微型计算机系统

【发表日期】

：

2011年08期

【关键词】

：

Web网页分类最小闭包球支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果. Aiming at the problem that the Web page classification method can only deal with the problem of small-scale data, a large-scale Chinese Web page classification method based on core subset selection training is proposed. This method transforms the optimization problem of support vector machine into the equivalent approximate minimum In the process of feature selection, an improved model of feature selection based on part-of-speech is proposed to effectively improve the large-scale data processing capability of Web page classification Experiments on the large-scale Web page dataset provided by Sogou Laboratory show that not only the accuracy rate can achieve the same effect as the support vector machine, but also the training time is greatly reduced. The test results of unbalanced category data show that, This method can also get good results in dealing with the classification of Web pages with unbalanced categories.

其他文献

浅析新农村排污权交易法律制度

排污权交易作为一种典型的以市场为基础的环境保护经济手段，它能充分调动企业治理污染的积极性，灵活调节经济发展与环境保护之间的平衡。当前，在科学发展观的指导下，扎实推进社会

期刊

排污权交易新农村建设法律制度

统一利润率与差别利润率——兼论两种均衡体系的比较

瓦尔拉斯把资本形成方程引入一般均衡体系后出现了内在的不一致性，从而在异质资本品的假设下，一般均衡体系只存在“差别利润率”。在斯拉法体系中，不同的资本品部门却拥有“统一

期刊

差别利润率统一利润率瓦尔拉斯一般均衡

马克思主义深刻改变了中国

<正>恩格斯说过:"一个民族要想站在科学的最高峰,就一刻也不能没有理论思维。"十月革命一声炮响,为中国送来了马克思主义。自此,马克思主义的命运同中国共产党的命运、中国人

期刊

马克思主义中国共产党中国特色社会主义

“埋头苦干”是延长石油企业文化的灵魂

任何企业都会倡导自己所信奉的价值理念，而且要求自己所倡导的价值理念成为员工的价值理念，并在实践中将自己的价值理念认真实施，从而使自己所信奉的价值理念成为指导企业及其员

期刊

石油企业文化延长石油厂

对ⅡB期宫颈癌患者不同治疗预后的Meta分析

目的：系统评价ⅡB期宫颈癌不同治疗方式有效性及安全性。方法：计算机检索PubMed、EMBase、Medline、The Cochrane Library（2014年第12期）、CBM、CNKI、VIP与万方数据库,由2位评价

期刊

循证医学Meta分析宫颈肿瘤癌治疗

行为干预联合心理护理对精神分裂症暴力行为患者疗效研究

目的:探讨行为干预联合心理护理对精神分裂症暴力行为患者的疗效。方法:选取2016年5月~2018年12月收治的80例精神分裂症患者作为研究对象,按照护理方式的不同分为对照组和研

期刊

精神分裂症暴力行为行为干预联合心理护理常规护理

网线制作及测试

随着计算机网络的普及,网线的制作、测试、维护也越来越普遍。本文简单介绍双绞线RJ45制作的标准方法,及测试、寻线方法,以便大家共享。

期刊

RJ45测线仪水晶头寻线

论农村污水治理中的直接排污者责任

在农村污水治理过程中,支付意愿假说和公民环境权理论为直接排污者,即农村居民成为污水治理责任主体提供了前提和依据。因此,必须按照科学设定和合理配置的原则,从农村污水治

期刊

农村污水治理直接排污者治理责任

我国的收入分配与消费分析

目前。我国有效需求不足的一个突出表现就是消费不振。居民消费率从1990年的45．2％下降到1994年的41．9％。之后又进一步下降到1998年的39％。居民的平均消费倾向也由1990年的0．8下降到

期刊

平均消费倾向分配现状有效需求不足收入分配状况模型分析消费分析

罗杰斯科学发现思想评述

在科学发现的第一阶段，罗杰斯提出了“直觉模式感”的概念。罗杰斯强调科学试验对检验科学假说的重要作用，但同时指出验证假说所选择的方法必须适用于假说和“直觉模式感”本身

期刊

科学发现罗杰斯模式感人本主义

一种核心子集选择训练的大规模中文网页分类方法

其他学术论文