文本分类在学科导航中的应用研究

来源 :成都理工大学 | 被引量 : 6次 | 上传用户:nancyloveme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的迅速发展导致网站上的文档信息成指数级增长,用户欣喜信息丰富的同时也为信息的无序和冗余所烦恼。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。建设网络资源学科导航系统是高校图书馆数字化信息服务的重要功能之一,也是其有效组织和利用网络信息的手段之一。随着网络信息和网页数量的增加,人工分类成了建立学科导航的主要瓶颈,把网页文本分类技术应用于学科导航建设,将是解决这个问题的主要手段。本文针对学科导航建设中的信息内容自动分类问题进行了研究,主要研究内容有:1)介绍了文本分类的研究现状和学科导航的发展,并研究了文本分类的基本概念、相关技术及文本分类应用于学科导航的可行性和带来的影响。2)介绍了文本表示技术及步骤,给出了一种改进的基于最大匹配原则的分词算法,并将其用于地质工程学科导航的文本表示中,这种改进算法保留了最大匹配分词法简单易于实现的特点,又充分考虑了最大交集歧义切分字段,保证了分词词典的延展性,一定程度上保证了学科导航分类系统的开放性和适用性。3)介绍了SVM和KNN两种分类算法的基本理论,分别利用LIBSVM软件和KNN算法的JAVA程序将两种分类算法应用于学科导航,然后从分类精确度、分类速度和算法推广度三个方面对两种实验结果进行了分析评价。实验结果表明SVM和KNN在学科导航文本分类中各有优势和缺陷,SVM的分类速度比KNN快,但算法推广度不如KNN。KNN直接反映样本与样本的关系,不考虑特征向量对类别的影响,因此在分类精确度上受影响。4)通过比较SVM和KNN实验,提出将SVM-KNN应用于学科导航。实验结果表明,SVM-KNN算法结合了SVM算法和KNN算法的优点,开拓了分类算法的新思路。SVM-KNN的适用性比SVM好,又降低了KNN算法对样本容量的要求和人工干预度,据实验观察,SVM-KNN是目前解决学科导航分类问题较好的办法。
其他文献
视频压缩编码技术是当今多媒体处理领域的重要研究课题,目前应用最为广泛的是基于块的混合视频编码框架。本文针对混合视频编码框架提出了多项双假设预测技术,有效地提高了视
抠图技术是在图像中提取前景图层以及对应不透明度信息的技术。通过该技术,可以方便地提取出输入图像的前景图层,然后完美地将其整合到任意的背景环境中,生成高质量的合成图
本文对多传感器目标宽容性特征获取进行了研究。文章从对未知目标宽容特征获取,对阵处理和多目标干扰宽容特征提取,宽容性识别框架构造三个角度出发,研究了宽容性多传感器目标识
近年来,第三代(3G)移动通信系统已逐步投入商用,第四代(B3G/4G)移动通信技术的研究和开发正在全球范围展开。在中国,第四代移动通信FuTURE计划已被正式列入国家“十五”863研究
动目标检测是合成孔径雷达(SAR)中一项重要的技术,本文研究多通道合成孔径雷达地面运动目标尤其是慢速运动目标的检测和在SAR图像上聚焦定位的技术。本文在分析SAR的成像原理
近年来,随着IPv6的逐步推广,作为保证网络高性能、高可靠性和高可用性的基本手段——网络测量,它的重要性正日益引起人们的关注。论文来源于国家自然科学基金重点项目(605721
随着全球化信息步伐的迅猛发展,企业,政府等各部门,乃至国际上信息交流量加大,网络,用来传输信息的载体,将会承载更多的具有机密性的信息。而在网络中,作为信息载体的电子邮件正发展
随着传输网络的规模不断扩大和各类业务的不断发展,对传输网络的要求也越来越高。传输网是基础网络,网络地位决定了网络优化极为重要;传输网络是保障整个网络质量的基础,优化传输