论文部分内容阅读
Internet技术的迅速发展导致网站上的文档信息成指数级增长,用户欣喜信息丰富的同时也为信息的无序和冗余所烦恼。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。建设网络资源学科导航系统是高校图书馆数字化信息服务的重要功能之一,也是其有效组织和利用网络信息的手段之一。随着网络信息和网页数量的增加,人工分类成了建立学科导航的主要瓶颈,把网页文本分类技术应用于学科导航建设,将是解决这个问题的主要手段。本文针对学科导航建设中的信息内容自动分类问题进行了研究,主要研究内容有:1)介绍了文本分类的研究现状和学科导航的发展,并研究了文本分类的基本概念、相关技术及文本分类应用于学科导航的可行性和带来的影响。2)介绍了文本表示技术及步骤,给出了一种改进的基于最大匹配原则的分词算法,并将其用于地质工程学科导航的文本表示中,这种改进算法保留了最大匹配分词法简单易于实现的特点,又充分考虑了最大交集歧义切分字段,保证了分词词典的延展性,一定程度上保证了学科导航分类系统的开放性和适用性。3)介绍了SVM和KNN两种分类算法的基本理论,分别利用LIBSVM软件和KNN算法的JAVA程序将两种分类算法应用于学科导航,然后从分类精确度、分类速度和算法推广度三个方面对两种实验结果进行了分析评价。实验结果表明SVM和KNN在学科导航文本分类中各有优势和缺陷,SVM的分类速度比KNN快,但算法推广度不如KNN。KNN直接反映样本与样本的关系,不考虑特征向量对类别的影响,因此在分类精确度上受影响。4)通过比较SVM和KNN实验,提出将SVM-KNN应用于学科导航。实验结果表明,SVM-KNN算法结合了SVM算法和KNN算法的优点,开拓了分类算法的新思路。SVM-KNN的适用性比SVM好,又降低了KNN算法对样本容量的要求和人工干预度,据实验观察,SVM-KNN是目前解决学科导航分类问题较好的办法。