基于知识库的自动分类系统设计与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhuxin1109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展,网络上的文本信息资源数量急剧增长。极其丰富的数据资源却让使用者陷入困境,如此多的信息分散、无序,增加了人们对网络信息资源利用的难度。因此,需要一种简单有效的方法把这些信息有序地组织起来,使用户方便快速地获取其中潜在的有价值的知识。文本自动分类是一个有效的解决方法,成为信息处理领域的一个研究热点。本文以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文本自动分类系统。全文共分为五部分:第一章绪论,主要介绍了论文的研究背景和意义,以及文本分类技术在国内外研究现状,并给出本文的主要内容和结构。第二章以《中图法》分类体系为基础构建分类知识库。知识库的数据主要来源于《中图法》,《期刊网》和厦门大学图书馆书目数据。对这些数据进行收集、整理,形成一个多词表的分类知识库。第三章讲述的是自动标引过程,包括特征项粒度的选取、分词算法、词典的组织以及特征项选取。以关键词作为特征项粒度,通过对目前常用的几种分词算法进行比较研究,采用逆向最大匹配算法作为本文的分词算法,特征项选取原则采用词频与位置加权结合的方式。最后对自动标引的结果进行了评测,标引结果达到了比较满意的效果。第四章针对特征项权重计算方法进行了改进,并提出了基于类目概念组配原理的分类方法。根据本文样本数据的特点,采用Dice系数作为特征项权重计算方法。从影响关键词在某类中的权重的角度考虑,对原算法进行改进,引入关键词在当前类包含的所有关键词中占的比例、类别平均样本数与当前类别样本数之比两个参数。根据类目概念组配原理,将各关键词的权重归并计算得到权值最大的分类号作为待分类文本的最佳分类号。第五章是中文文本分类系统的设计与实现,并对自动分类进行测试。实验结果显示,改进算法的各个评测指标均比其它两种算法高出5-6个百分点。最后总结了文章的不足之处以及下一步工作需要改进的方面。
其他文献
在粗苯加氢精制项目中萃取精馏工段首先需要通过溶剂回收塔的处理从混合溶液中分离溶剂与芳烃以进行后续的生产加工流程,所以实际的生产过程中对塔温的控制精度提出了很高的要求。溶剂回收塔具有非线性、大时滞及不确定性等特点,目前对塔温的控制大多采用成本高、体积大以及响应慢的常规PLC设备,难以达到控制系统性能指标的最佳。首先根据现场采集的数据抽象出溶剂回收塔数学模型,利用MATLAB软件分别对常规PID和搜索
随着经济的发展,公共运输系统也逐步完善,地铁作为人们出行最常乘坐的公共交通之一,要对其进行严格的安全防护,地铁人流密集,且线路复杂,对于地铁消防安全系统提出了极大的考
随着科技的不断发展,为实现税收信息管理的方便、快捷,将计算机处理信息技术与其结合发展成为数据库形式的新型管理信息技术,这种数据仓库的形成在数据的组织、查询、报表都
在现代通信技术快速发展的背景下,在考试中应用无线电进行作弊的案例不断增加,出现了越来越多的作弊手段,考试无线电作弊呈现出商业化、专业化和网络化特征,破坏了公正的考试
The essence of uncertain data management has been well adopted since data uncertainty widely exists in lots of applications,such as Web,sensor networks,etc.Most
本文通过对全站仪进行方位角测量的原理进行分析,分析了全站仪进行天线方位角测量的各个不确定度分量,得出了GNSS终端抗干扰设备方位角测量的不确定度.
从最原始以纸质档形式办理公安业务,到后来的计算机处理时期,都由于实际情况的限制,未能实现移动办公,解决“最后一公里”的问题.本文首先对移动警务应用发展状况进行小结,并
一、引言    教育部颁发的《大学英语课程教学要求》强调必须“增强学生自主学习能力”,该课程要求对大学英语教学提出了挑战。它要求从事教学工作的教师要从观念到教学实际都发生根本性的变化,同时教师的角色也应随之发生改变。此外教学环境,可利用的语言学习材料,及其的建设也应达到一定的水平,因为这几项也是影响自主学习能力培养的重要外因。本文致力于研究英语语言材料的利用情况,探讨教师的指导和监督作用的延伸和建
随着新媒体技术的发展和普及,大数据在高校图书馆个性化服务中的地位获得了显著的提升,各大高校为让图书馆的服务更加便捷和高效,为使师生间的共享变得方便和优质.纷纷借助互
在云计算技术和大数据技术发展高峰时期,国产软硬件领域也面临着进一步完善和优化局面.结合行业发展趋势来看,构建具有安全性和可靠性的大数据体系,已经成为大数据行业领域未