基于关联技术的中文文本分类研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zgrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对与日俱增的爆炸信息,人们获得有用知识显得越发困难,而有效的组织和管理能帮助人们便捷准确地找到所需知识,于是文本分类成为一大研究热点。由于中文的复杂性和国内相关研究较晚,中文的文本分类还存在多方面难点需要突破。国外在文本分类方面提出了较多方法和技术,并表现出良好的效果。目前中文文本分类的研究不断地结合这些优秀的方法和技术,在分类准确性、可靠性等方面进行大量的研究,取得了一些的实际成果。随着关联规则和分类算法的不断研究,学者们提出了关联分类的方法,并有着广泛和有效的应用。所以本文基于关联技术,以中文文本为研究对象,对关联的中文文本分类进行研究。基于以往关联分类方法的优势和不足,我们尝试设计了两种中文文本分类的方法。第一种方法基于CMAR的多关联规则的思想,考虑到频繁闭项集的特性,结合了TFP算法不用预设min_sup的优势,进行了相关改进来寻找用于指导分类的最优关联闭规则;第二种方法结合CPAR中高效产生潜在规则的优势,对其算法进行了如下改进:采用了新的度量标准FGIG选择合取、引入了多重衰减因子寻找高质量的潜在规则、利用Laplace准确率有效评价规则等,最后结合同源规则的概念改善分类策略。对两种方法都进行了中文文本的分类实验,通过多组对比实验,由实验结果的分析表明两种方法在文本分类准确率、方法的有效性等方面有较好的表现。总的来说,设计的方法对中文文本的分类方面具有很好的实用价值和指导意义。
其他文献
本文提出了一种基于数字水印和数字签名技术的电子签章系统解决方案,在一定程度上解决了电子签章系统的安全问题。   通过对目前多种流行的电子签章系统的研究和分析,发现大
在后基因组时代,随着数百个物种的全基因组测序的完成以及基因组注释信息的日益完善,可以较可靠地从基因组信息重建物种特异的代谢网络。系统地分析代谢通路和代谢物之间如何作
中文术语自动抽取是中文信息处理中的一项基础性研究课题,在很多领域都有很重要的作用。如在语言学中的自然语言生成、计算词典编撰学、句法分析、语料库语言学研究等,在自然
随着计算机应用技术的不断发展,数据库系统越来越多地被应用到各个领域中。由于数据库中存储着大量的数据信息,其中有一些是涉及机密的数据,而由于数据库具有资源共享的特点,
智能交通系统(Intelligent Transportation System, ITS)是道路交通管理体系发展的必然趋势,车牌识别技术是ITS的关键技术之一。经验模式分解(Empirical Mode Decomposition,
网上实验室经历了仿真实验室时代和虚拟实验室时代。虚拟实验室是用软件构建实验室系统的逻辑结构,再结合相关硬件构成,并利用网络技术实现。本文提出的网上虚拟实验室,是在
网络的最大特点是共享,相伴产生的安全问题也成为人们不得不面对的问题,特别是用来保证信息传输安全的网络安全协议的安全性显得尤为重要,常被人们称为安全之上的安全。因此
本文对传统防火墙技术的的特点进行了分析,并指出其存在的问题,提出研究智能防火墙的必要性,并介绍了当前国内外学者对智能防火墙技术的研究现状。然后根据当前网络信息的不
随着计算机技术在纺织工业中的应用同渐广泛,纺织生产自动化已经成为纺织行业发展的必然趋势。但就目前而言,国内的织物CAD研究大多注重对单层组织织物的研究,对复杂织物组织