基于支持向量机的网页分类技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:liongliong424
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,为了能够有效地组织和分析海量的Web信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。它是使用机器学习的方法实现网页类别的自动标注。在众多的网页分类算法中,支持向量机因为其出色的学习能力,已成为机器学习界的研究热点。介绍了支持向量机技术发展,原理和相关技术,概括了支持向量机技术在网页分类中的重要作用。阐述了目前支持向量机常用的训练算法,针对目前训练算法在面对高维度超大数量集训练时存在的训练时间过长、迭代次数过多的问题,提出了基于三样本点迭代的支持向量机训练算法。在保证获得解析解的前提下,将每次迭代优化的样本点个数由原有算法的两个提升为三个,减少了迭代次数,缩短了训练算法的学习时间。针对经典支持向量机训练算法不支持增量学习的缺陷,分析并证明了现有增量学习算法中普遍存在的丢失样本有效信息的问题,提出了基于超平面距离的支持向量机增量学习算法。根据支持向量的几何分布特点,采用超平面距离预选取方法,从增量样本中选取最有可能成为支持向量的样本进行增量学习,在保证不丢失样本有效信息的前提下,减少了增量学习时的样本个数,提高增量学习的训练速度。最后,将改进后的支持向量机训练算法应用到网页分类系统中,对以上的改进策略进行实验比较和性能分析。实验数据表明,本文算法具有更高的分类的效率和准确度。
其他文献
随着网络技术和移动通信技术的发展,基于移动计算设备的应用已经越来越普及。人们广泛使用PDA、智能电话等移动手持设备随时随地进行商务活动。为了适应移动应用的这一发展,移
电子邮件已经成为人们日常生活中通信、交流的重要手段,但垃圾邮件占用大量的传输、存储和运算资源,造成巨大的资源浪费,对信息安全系统的有效性形成重大挑战,垃圾邮件严重危
随着全球网络化和信息化的发展,计算机网络已经深入到社会生活的各个方面,包括政治、经济、社会、教育和军事等几乎所有领域的各种业务流程之中。与此同时,政府机构、企事业单位
信息技术的发展,加快了现代家庭生活变革的步伐,人们对家居环境的安全性、舒适性和高效性提出了更高的要求。此外,对厂商而言,市场竞争的压力不断加大,而发展数字家庭产业是厂商寻
工作流是对业务流程进行规范化控制和管理的技术,工作流管理系统(WfMS)是支持企业经营过程高效执行并监控其执行过程的计算机软件系统。随着SOA(Service-Oriented Architecture)的
网格是由硬件和软件构成的基础设施,提供对高性能资源可靠的、一致的、无处不在的、廉价的访问。在网格计算中,资源可能是动态的、异构的,资源之间的性能和能够提供给用户的服务
随着信息技术和互联网技术的飞速发展,可供人们利用的多媒体资源的数量也日趋庞大,由于受到传统基于文本检索技术的限制,仅通过现有的搜索引擎(如Google、百度)人们在不少情
学位
物体的识别检测是计算机视觉领域各项研究中的基础环节,对物体进行准确的识别检测能够为计算机视觉中的其他研究工作提供良好的指导。在基于学习有监督的物体识别检测中主要
植物是人类赖以生存的必要元素,一直以来都是人类关注的焦点。随着计算机视觉以及机器学习的高速发展,人们越来越希望能对利用计算机来自动完成植物图像的分类、识别、检索工