论文部分内容阅读
当今的世界,信息充斥着各个角落,以电子形式存在的Web文本已逐渐成为人们最重要的信息来源。然而,Web文本是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档。因此,如何有效的、快速的从浩瀚的网络信息中获取到所需要的、可以利用的知识,已成为近年来人们研究的主要课题,并形成了一门新的技术:Web文本挖掘。它主要包括四个方面的内容:Web文本分类、Web文本聚类、信息抽取和信息检索。本文主要是对Web文本分类进行研究。在Web文本分类中,支持向量机得到了广泛的应用。它是建立在统计学习理论和结构风险最小化原则基础上的一种机器学习方法,能够很好的解决小样本下的学习问题。与传统的机器学习方法相比,支持向量机具有很强的泛化能力,而且能够得到全局最优解,很好地解决了过学习、维数灾难、局部极值等问题,成为现在科学领域的一个研究热点。然而作为一个相对较新的理论,支持向量机还有待进一步的研究、改进。其中,对大规模数据集的分类问题及数据集更新后如何重新分类是研究的重点和难点之一。本文首先对Web文本挖掘分类进行了研究,分析了其关键技术。然后研究了统计学习和支持向量机的基本概念及相关理论,并针对支持向量机在求解大规模数据集时存在的缺陷,如占用较高内存、收敛速度很慢、在数据集更新后又重新对所有样本进行分类等,提出了一种改进的基于相对分离度的算法,用来解决多分类问题。继而,在该算法的基础之上,提出了基于相对分类度的多分类增量学习算法。该算法将支持向量机和增量学习结合起来,当数据集更新后,该算法保留了以前学习的结果,仅对新增加的数据进行再学习,从而形成一个连续的学习过程。最后,将改进的算法应用于Web文本挖掘系统中,并取得了较好的分类效果。