论文部分内容阅读
随着互联网等信息技术的发展和广泛应用,Web已经成为人们获取信息最重要手段之一.互联网提供了到足够丰富的信息,而人们所需要的通常只是一部分信息,如何从这海量的信息资源库中快速、准确地进行分类并提取出有用的信息,显得异常迫切,当前广泛应用的搜索引擎技术,基于关键字搜索往往检索的网页达数万条,其中很大一部分与主题无关,而有用的信息则淹没在这些无关的信息中,这使得寻求通过数据挖掘技术在Web领域开辟新的途径.中文文本分类是中文信息处理领域的重要组成部分,目前,广泛应用于Web中的搜索引擎技术、信息过滤技术等都是文本分类技术的应用.
支持向量机技术是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力.它是专门研究有限样本集的情况,算法最终转化为一个二次型寻优问题,通过非线性变换转到高维的特征空间,保证机器有较好的推广能力,同时它巧妙地解决了维数灾难问题.
本文首先介绍了Web挖掘的研究内容,探讨了Web挖掘的内容挖掘、结构挖掘和使用挖掘的常用技术及其存在的问题;随后对文本分类的研究进行了讨论,总结了文本分类的一般处理过程,并就相关的算法步骤进行了深入的分析,提出了一种基于语义引导的特征选择方法,对小样本集下的文本进行了分类实验,结果表明,基于语义引导的特征选择方法有较高的查全率和查准率,具有较好的分类性能.随后对支持向量机技术进行理论上的分析,探讨研究在有限样本集下,支持向量机技术在文本分类中的优势.对多类文本分类的问题,进行了分析,给出了集中解决方案,对多类文本分类问题,在变换成高维的特征空间中核函数选取的问题进行了深入的讨论,分析核函数的选取对分类的精度可能造成的影响.
最后,采用支持向量机技术,对有限样本集文本进行了分类实验.采用了分类问题常用的评价算法查全率和查准率等进行了评估,比较研究了多项式核函数参数的选取以及惩罚参数的变化对文本分类效果的影响.