论文部分内容阅读
在Web中文文本分类中存在特征集维数过高的问题,当前的特征选择方法不足以解决这一问题,本文针对这一情况,研究了有监督的等距特征映射(Isometric featuremapping,Isomap)方法,并将该方法作为特征提取方法应用到在Web中文文本可视化和分类实验中。主要研究内容有以下四个方面:(1)深入研究了Isomap算法的步骤、理论依据和测试点的嵌入算法首先,深入分析了Isomap算法的前身——MDS算法的原理和步骤,推导了运用MDS算法得到精确解的充要条件;然后,对Isomap算法的步骤、特点进行了研究,系统地推导了Isomap算法的理论基础,补充了该理论的证明过程;最后,对Isomap算法中测试点的嵌入问题进行了推理,得到了测试点嵌入的一个直接方法;(2)深入研究了基于核的Isomap算法及其测试点嵌入算法详细推导了在特征空间非中心化数据点的核主成分分析算法的步骤和测试点嵌入算法的一般表达式,对基于核的Isomap方法进行了研究,分析了核Isomap方法中构造核矩阵问题和测试点嵌入问题;(3)提出了两种有监督Isomap算法针对Isomap算法的无监督性和现有的有监督Isomap算法的测试点嵌入方法较为复杂的问题,首先,根据训练集中已有的类别信息,通过引入类别参数调整训练集中不同类别数据点之间的测地距离,利用带有标号点的Isomap算法中非标号点的嵌入方法实现测试点的低维嵌入,提出了有监督Isomap方法(Ⅰ),该方法具有充分利用类别信息,测试点嵌入简便的优点:然后,针对Isomap方法中无法保证中心化平方测地距离阵半正定性的问题,根据核Isomap方法中对测地距离阵增加常数的方法和推导出的Isomap方法的测试点直接嵌入方法,提出了有监督Isomap方法(Ⅱ),该方法在保持充分利用类别信息,测试点嵌入简便的优点的同时,更好的保持了由类别调整后的相对测地距离,更有利于进行分类;(4)研究了Web中文文本的分类过程,将提出的两种有监督Isomap算法应用到Web中文文本的可视化和分类实验中深入研究了Web中文文本的分类过程,对Web中文文本分类的关键技术尤其是特征选择和特征提取技术进行了深入的研究,并将提出两种的有监督Isomap算法应用到Web中文文本的可视化和分类实验中,通过与现有方法的比较,取得了良好的可视化和分类效果,证明了这两种方法在Web中文文本可视化和文本分类中的有效性。